[发明专利]一种基于特征采样的时间序列分类方法及装置有效
申请号: | 201810384213.7 | 申请日: | 2018-04-26 |
公开(公告)号: | CN108573059B | 公开(公告)日: | 2021-02-19 |
发明(设计)人: | 王宏志;孟凡山;齐志鑫;高宏 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/2458 |
代理公司: | 北京格允知识产权代理有限公司 11609 | 代理人: | 周娇娇;谭辉 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 特征 采样 时间 序列 分类 方法 装置 | ||
本发明涉及数据处理技术领域,提供了一种基于特征采样的时间序列分类方法及装置,该方法包括:通过特征采样方法将训练用的时间序列数据集转化为具有等长特征的训练数据集,并将测试用的时间序列数据集转化为具有等长特征的测试数据集;采用集成学习分类方法,利用所述具有等长特征的训练数据集进行模型训练;使用训练后的模型对所述具有等长特征的测试数据集进行时间序列分类。本发明先通过特征采样方法将不同长度的时间序列数据集转化为具有等长特征的数据集,再采用集成学习分类方法进行分类,提高时间序列分类的准确率,能够对于大规模的时间序列数据进行准确的分类。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于特征采样的时间序列分类方法及装置。
背景技术
时间序列分类在很多领域有着广泛的应用,比如隐马尔科夫模型(HMM)和动态时间归整(DTW)在语音处理以及语音识别上的应用。在数据库方向上,我们将由随时间变化的值组成的数据库,称为时间序列数据库,在这种时间序列数据库中的数据挖掘工作称为时间序列挖掘。时间序列分类问题对于时间序列挖掘至关重要,相比于普通常规的分类数据,时间序列具有长度不固定,序列数据前后依赖关系较强,以及噪声数据较多的特点。
时间序列分类问题因为数据序列具有的特殊属性,因此不能直接应用常见的分类学习算法进行分类学习。常规的分类学习算法,比如支持向量机(SVM),逻辑回归(LR)等在处理时间序列问题上效果并不好。目前,效果较好的算法是动态时间归整(DTW)算法,DTW算法的思想是利用动态规划算法寻找两条序列的最优匹配,从而得到待预测序列的类别,DTW算法由Berndt和Clifford提出,并且通过了大量的实验以及实际效果证明,DTW在大多数的时间序列分类问题上具有很好的性能和准确率。
虽然目前已经有了许多关于时间序列分类的算法,但是这些算法在泛化性以及准确率上并不能够满足时间序列分类问题的需要,这主要表现在以下几个方面:
1、目前提出的许多时间序列数据转换和分类算法对于小规模的时间序列数据比较有效,对于大规模的时间序列数据,由于内存,处理时间等条件的限制,并不适用。
2、时间序列数据存在着局部相似性以及依赖关系等复杂属性,当前的时间序列处理算法并不能够处理局部相似性问题。
3、目前大多数的时间分类算法都是基于单一线性模型或者树模型的,单一模型的表现能力较弱,因此准确率较低。本专利采取的模型为随机森林模型,该模型内部包含了众多的决策树,在训练与预测上,结果由众多的决策树共同投票得出,避免了单一模型的变现能力弱的缺点。
发明内容
本发明要解决的技术问题在于,针对现有技术中时间序列分类存在的以上一个或多个缺陷,提供了一种基于特征采样的时间序列分类方法及装置。
为了解决上述技术问题,本发明提供了基于特征采样的时间序列分类方法,包括:
通过特征采样方法将训练用的时间序列数据集转化为具有等长特征的训练数据集,并将测试用的时间序列数据集转化为具有等长特征的测试数据集;
采用集成学习分类方法,利用所述具有等长特征的训练数据集进行模型训练;
使用训练后的模型对所述具有等长特征的测试数据集进行时间序列分类。
可选地,所述特征采样方法为分段特征采样方法,包括:
设置分段长度l1,分段个数m1和分段之间间隔g1;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810384213.7/2.html,转载请声明来源钻瓜专利网。