[发明专利]不确定时间序列之间的相似性的广义符号表示有效
申请号: | 201180033950.9 | 申请日: | 2011-07-08 |
公开(公告)号: | CN102985917A | 公开(公告)日: | 2013-03-20 |
发明(设计)人: | S·R·萨朗吉;K·穆尔蒂 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/18 | 分类号: | G06F17/18;G06K9/62 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 王茂华;黄倩 |
地址: | 美国纽*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 不确定 时间 序列 之间 相似性 广义 符号 表示 | ||
技术领域
本发明涉及标识多个时间序列之间的距离。
背景技术
用于相似性搜索和数据挖掘的距离测量经常聚焦于不确定数据,比如从传感器网络产生的数据。然而,近来已经转向认识到在许多应用领域中应当捕获并且考虑这样的数据的不确定性。但是,没有许多方式应对时间序列或者流传输数据。
通常,与时间序列中的不同时隙对应的值具有不同误差贡献。需要一种用于执行数据挖掘任务、比如时间序列聚类和分类的技术。常规距离度量无法对不确定数据有效。
论文″A framework for clustering uncertain data streams″(C.C.Aggarwal和P.S.Yu,2008)提出一种用于对不确定数据流聚类的框架。该论文假设已知关于不确定性的一些统计量。基于这一点而创建微聚类,并且在新数据点到来时基于预计相似性值来动态更新微聚类。这一方式因此不适用于一般数据挖掘任务。
论文″Probabilistic similarity search for uncertain time series″(J.Aβfalg、H.Kriegel,P.Krger和M.Renz.,SSDBM,2009)和″Proud:Aprob abilistic approach to processing similarity queries over uncertain data streams″(M.Yeh、K.Wu、P.S.Yu和M.Chen,EDBT,2009)介绍了用于时间序列数据的概率有界范围查询(PBRQ)的符号表示。给定距离界限e和概率阈值τ,如果两个时间序列之间的距离的概率等于或者小于e等于或者大于τ,则认为这两个时间序列相似。这是一种相似性搜索的方式。
Aβfalg等人假设时间序列的不确定性由在每个时隙的采样集合代表。因此,不确定时间序列T代表规律性时间序列S(T)的集合,其中通过针对每个时隙挑选一个采样点来构造每个规律性时间序列。两个不确定时间序列T1与T2之间的距离被定义为在来自S(T1)和S(T2)的所有组合之间的距离的集合。并非所有应用领域针对每个时隙提供多个采样点。这一方式也未在计算上高效。
Mi-Yen Yeh等人的方式处理的是针对数据流的不确定性。将在每个时间点的不确定性建模为仅均值和标准差已知的连续随机变量。在两个时间序列之间的距离是随机变量。这足以用于计算概率有界范围查询的结果,但是它不允许直接计算在两个时间序列之间的距离。这一方式的另一限制在于,为了使PBRQ的计算更高效并且允许及早削减候选,而假设不确定偏差对于序列的所有时间点而言相同。
美国专利公开US20090327185″Systems for Structural Clustering of Time Sequences″公开了一种将两个时间序列中的误差分布的非线性纳入考虑之中的距离函数。通过确立与接收的时间序列数据有关的结构特征、确定在不同时间序列之间的距离,并且基于该距离将不同时间序列分割成包含时间序列中的至少一个时间序列的聚类,从而在不同时间序列之间执行结构聚类。
美国专利公开US20100002538″Determining the Structure of aTowed Seismic Spread Element″公开了一种在确定在地震源之间的位置/距离中考虑读数/测量值的非高斯误差分布的方法。
美国专利公开US20090222472″Method and Apparatus for Aggregation in Uncertain Data″公开了一种通过考虑一阶和二阶误差统计量来计算在误差引起的值之间的距离的特征。
美国专利公开US20030093227″Statistical Combining of Cell Expression Profiles″公开了一种特征,其中距离函数通过使用来自多个重复实验的数据来考虑值中的误差分布的非线性,以生成针对每个数据点的置信度值、增加灵敏度并且消除系统性实验偏置。
生成不确定数据的基于传感器的系统变得越来越重要。另外,传感器在工业控制系统中发挥重要作用。在多数情况下,存在与传感器关联的某一误差量。没有用于处置不确定数据中误差的有效技术就不可能高效处理并且有效使用传感器数据。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201180033950.9/2.html,转载请声明来源钻瓜专利网。