[发明专利]基于加权BORDA计数法的多元时间序列相似分析方法在审
申请号: | 201310465475.3 | 申请日: | 2013-10-08 |
公开(公告)号: | CN103488790A | 公开(公告)日: | 2014-01-01 |
发明(设计)人: | 王继民;朱跃龙;李士进;万定生;冯钧 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 李玉平 |
地址: | 211100 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 加权 borda 计数 多元 时间 序列 相似 分析 方法 | ||
技术领域
本发明涉及一种能够进行多元时间序列相似性分析的方法,具体是一种基于加权BORDA计数法的多元时间序列k-近邻分析方法,属于数据挖掘技术领域。
背景技术
随着信息获取、传输和存储技术的发展,产生了大量的时间序列数据,如水文信息,包含水位、流量、蒸发量等,金融领域的股票信息,包含开盘价、收盘价、均价等,医学领域用来进行诊断的脑电波数据(EEG)包含利用多个传感器信息等,这些数据包含了几个甚至几十、几百个变量,蕴涵着丰富的领域知识和规律。利用人工智能和数据挖掘技术从这些大量数据中发现时间序列中的知识已经成为一个重要研究领域。时间序列数据挖掘研究主要包括时间序列特征提取、相似性搜索、预测、分类、聚类以及序列模式挖掘等。其中,相似性搜索是其他挖掘的重要基础,相似性搜索由R.Agrawal于1993年首次提出。
目前,多元时间序列相似性分析包含两种主要方法:整体法和维组合法。维组合法对多元时间序列的各维序列分别进行相似性分析,最后将各维分析结果进行组合,得到最终的多元相似时间序列。另一种维组合法的思路是,将各维时间序列互相首尾相接组成一个更长的一元时间序列,然后采用已有一元时间序列相似性分析方法进行相似性检索。整体法认为多元时间序列的各维之间存在千丝万缕的联系,因此从整体上提取多元时间序列的特征,利用特征描述原始多元时间序列并进行相似性检索,如,对多元时间序列采用PCA(Principal Component Analysis)进行变换,然后利用特征值和特征向量描述多元时间序列,并建立基于特征值和特征向量的相似度量,如,Eros(Extended Frobenius norm),Spca(PCA Similarity Factor)等。基于点分布特征PD(Point Distribution)的多元时间序列相似度量则提取多元时间序列的局部特征,然后采用分位点来描述多元时间序列局部重要点集P的分布特征,最后基于分位点向量之间的距离度量多元时间序列之间的相似程度。相对于整体法,维组合法可以利用已有的一元时间序列相似分析方法,其要解决的问题是各维之间的独立性以及各维一元相似子序列的组合。BORDA计数法是一种经典的投票表决法,可用于进行多元时间序列相 似性分析中相似子序列的组合排序。李士进等提出基于BORDA计数法的多元时间序列序列相似性分析[李士进,朱跃龙,张晓花等.基于BORDA计数法的多元水文时间序列相似性分析[J].水利学报,2009,40(3):378-384.],但是其在利用BORDA计数法对多元候选相似子序列进行组合排序时,采用传统的BORDA计数法对序列计算BORDA投票分数,排序相邻的两个子序列之间投票分数差距固定设置为1分,该分数并不能充分体现前后相似(序列)子序列和查询序列的相似差距,因而可能造成相似序列排序不准确,影响相似分析结果。本发明对BORDA计数法进行改进,提出加权BORDA计数法,在投票时,采用各一元相似(序列)子序列与查询序列之间的相似距离对其投票分数进行加权,从而在投票分数中体现不同相似(序列)子序列与查询序列之间的具体相似差距,然后基于加权BORDA计数法对多元候选相似(序列)子序列,以获取最终的多元相似(序列)子序列。
发明内容
发明目的:本发明提供一种多元时间序列相似性分析方法,提高时间序列相似性分析的效率。
为了实现上述目的,本发明针对BORDA计数法存在的缺点,对其进行改进,以适应对多元相似(序列)子序列投票排序的需求,并在此基础上提供了一种多元时间序列k-近邻分析方法。多元时间序列相似性分析从被查询的对象来分可以包括全序列查询(Whole Match)和子序列查询(Subsequence Match)。全序列查询,即待查时间序列中包括多个等长或不等长的多元时间序列,指定查询序列,从数据序列中查找与查询序列相似的序列。子序列查询,即从一个长的多元待查时间序列中查找与指定查询序列相似的子序列,结果包括各相似子序列在待查序列中的偏移位置。本发明的基于加权BORDA计数法的多元时间序列相似性分析方法适用于全序列和子序列的k-近邻查询。
技术方案:一种基于加权BORDA计数法的多元时间序列相似分析方法,包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310465475.3/2.html,转载请声明来源钻瓜专利网。