[发明专利]一种基于可变间隔对象的时序数据相似性度量方法在审
申请号: | 201910610193.5 | 申请日: | 2019-07-08 |
公开(公告)号: | CN110334766A | 公开(公告)日: | 2019-10-15 |
发明(设计)人: | 何珍文;刘刚;田宜平;黄挺;李旸;孙亚博;龙仕容;赵洪;刘玉婷;乔璐楠;吴凡 | 申请(专利权)人: | 中国地质大学(武汉) |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/2458 |
代理公司: | 武汉华旭知识产权事务所 42214 | 代理人: | 刘荣;江钊芳 |
地址: | 430074 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 相似性计算 时序数据 相似性度量 可变间隔 时序 算子 规约 局部相似性 相似性查询 对象数据 范围查询 关系计算 计算节点 间隔关系 结果返回 结果整合 局部时序 空间查询 快速构建 时序片段 统一转换 问题转化 大数据 间隔点 列结构 转换 二维 算法 查询 | ||
本发明提供了一种基于可变间隔对象的时序数据相似性度量方法,基本思路是将地学时序大数据统一转换成可变间隔对象数据集,基于间隔变换距离相似性度量方法将时序数据对象的相似性计算转换成为二维间隔点集平面上TIO点的简单空间范围查询,然后根据间隔关系算子理论将该空间查询转换成为一些列结构简单的普通间隔对象之间的关系计算,将复杂的时序相似性计算问题转化成一系列简单的间隔算子的计算问题,实现在本地计算节点上快速构建局部时序相似性计算结果。最后采用规约算法对多个时序片段的局部相似性结果整合为完整的相似性查询结果返回给查询用户,从而在整体上提高时序数据相似性计算性能。
技术领域
本发明涉及一种基于可变间隔对象的时序数据相似性度量方法,属于地学时序数据计算领域。
背景技术
时序数据可以帮助人类了解历史、掌握现在、预测将来,有助于提高人类对现实世界中各种存在与状态演变的洞察、感知与预测能力。特别是各种地学监测与解译时序大数据,对环境监测、矿山安全、城市内涝、土地管理、泥石流和地震等自然灾害的监测、预报、防治与救援等时间敏感性问题的求解具有重要意义。
随着地学传感网络(GeoSensor Network,GSN)在资源、环境、生态等领域的大规模部署,地学时序数据获取成本逐渐降低,数据规模与日俱增。这些数据多来源于各种监测传感器,具有多传感器、多目标、多分辨率、多类型的多源异构特征,是地学领域机器学习与数据挖掘的重要数据来源。传统的时序数据管理与分析以时刻点值对类型(简称为TPD类型)的时序数据为主,单一的规则序列结构无法同时兼顾基于时段的时序数据(简称为TLD),缺乏对多目标、多传感器、多分辨率、多类型的多源异构地学时序大数据的统一索引机制与相似性度量方法。大规模多源异构时序数据集的涌现,对传统时序数据管理与分析应用方法提出了严峻挑战。
时序数据之间的相似性计算,是许多时序数据挖掘和机器学习任务的核心科学技术问题之一,对于其挖掘性能起着决定性作用。时序相似性度量是其计算的基础,常见的时序相似性度量方法总体上分为锁步度量和弹性度量;前者是时间序列之间点对点的一对一比较,后者则允许两个时序进行一对多或零的比较。最具有代表性的锁步度量是欧氏距离(ED)。欧氏距离可用于不同数据类型,但是它要求被度量的两个时间序列长度相等,对于间隔周期不同的多分辨率时间序列相似度量困难。
弹性度量类型的方法在一定程度上克服了这个缺点,它允许将两个需要比较的时间序列拉伸或收缩变换后进行相似性匹配。比较具有代表性的弹性度量方法主要包括动态时间规整(DTW)、基于编辑距离(EditDistance)的最长公共子序列(LCSS)、实序列编辑距离(EDR)、实补偿编辑距离(ERP)以及在线弹性相似性度量方法等。DTW允许序列中的点经过复制、变换后再进行等长匹配计算,通过动态窗口引入,克服了ED方法中由于序列变形导致无法匹配的问题,但计算复杂度急剧上升。最长公共子序列(LCSS)、实序列编辑距离(EDR)和实补偿编辑距离(ERP)的基础都是编辑距离。所谓编辑距离是指,两个字符串之间转换时所需要的最少编辑操作步数,编辑距离的大小与序列相似性成反比。LCSS用两字符串最大公共字串的长度与最长字符串长度的比值进行相似性度量,但噪音、误差比较敏感。EDR则采用重新定义编辑距离的方式降低了噪音与误差,主要适用于生物信息、语音识别等领域。ERP则在两个序列中添加一些符号把两条长度不同的序列排列成相同的长度,从而方便一对一比较,其主要目标是寻找弯曲路径中最小的路径。但是,上述三种弹性相似性度量方法缺乏增量处理机制,无法高效支持实时时序数据流的相似性计算出来。2019年最新提出的在线弹性相似性度量方法针对上述问题进行了改进,在经典弹性相似性度量方法的基础上引入了遗忘机制和增量计算机制,较好的实现了TPD类型在线时序数据的相似性度量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国地质大学(武汉),未经中国地质大学(武汉)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910610193.5/2.html,转载请声明来源钻瓜专利网。