[发明专利]基于AR_TSM的时间序列motif关联规则挖掘方法有效
申请号: | 202010084931.X | 申请日: | 2020-02-10 |
公开(公告)号: | CN111324638B | 公开(公告)日: | 2023-03-28 |
发明(设计)人: | 赵丹枫;黄冬梅;黄雁玲;林俊辰;宋巍 | 申请(专利权)人: | 上海海洋大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/28;G06F17/16 |
代理公司: | 上海伯瑞杰知识产权代理有限公司 31227 | 代理人: | 李庆 |
地址: | 201306 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 ar_tsm 时间 序列 motif 关联 规则 挖掘 方法 | ||
本发明提供一种基于AR_TSM的时间序列motif关联规则挖掘方法,包括步骤:S1:采集一时间序列数据;S2:基于PM_Motif方法对所述时间序列数据进行motif提取;S3:基于AR_TSM方法的时间序列motif关联规则挖掘;S4:利用衡量指标RM衡量规则预测性能。本发明的一种基于AR_TSM的时间序列motif关联规则挖掘方法,实现了保留原始信息的motif的精准快速提取;保证了规则的一致性,并可避免虚拟规则的产生。
技术领域
本发明涉及时间序列数据挖掘领域,尤其涉及一种基于AR_TSM的时间 序列motif关联规则挖掘方法。
背景技术
在数据挖掘领域,从时间序列中挖掘关联规则,进而对未来趋势做相应 的预测是数据挖掘领域的一个热门话题,在许多领域有着重要的应用。比如 在与机器人的交互过程中,如果能够利用关联规则对人类的行为做一些短期 的预测,机器人便可以提前做好应对措施。再比如,通过挖掘的关联规则进 一步提高龙卷风的预警时间。利用关联规则来准确预测股票的价格走势等。 目前的一些研究成果能够通过相关的关联规则挖掘算法进行挖掘与预测,但 是绝大多数的研究中都存在虚假规则。如何挖掘其中真实的、有效的时间序列规则,已经成为时间序列研究中一个极具价值的课题。
关联规则挖掘算法最早由Agrawal.R等人引入,研究的是数据库中的频 繁项集之间的关联规则;Das.G等人将关联规则引入到时间序列中,采用聚类 的方法发现频繁子序列,但是该种方法容易得到大量的虚假规则。Wu等人通 过分段线性近似(PiecewiseLinear Approximation,PLA)算法将时间序列符号 化后进行规则挖掘,该算法对实际财务数据的未来趋势预测准确率达到68%, 但其他学者发现该算法并不比随机猜测好,当他们在随机生成的数据集上测 试算法时,他们仍然具有近68%的预测精度。
Motif提取对关联规则的挖掘是十分重要的。Motif最初来自生物学。在 这里,motif指的是在时间序列中频繁出现的未知的子序列,2002年J·Lin等 人首次将motif用于时间序列数据挖掘中,并指出时间序列motif提取对关联 规则挖掘的重要性。此后,更多的motif提取算法被提出,如EMMA,但该 方法时间复杂度较高,不适用于数据量较大的时间序列的数据挖掘;Buhler J 等人提出随机映射的方法提取motif,但该方法的可扩展性不高;Yuan L等人 提出采用语法归纳的方法提取motif,但该方法存在时间序列符号化导致信息 丢失的问题,无法实现精确挖掘motif;Mueen等人提出的MK算法被广泛用 于发现motif,但该方法需要定义许多参数,这导致motif发现过程中存在参 数依赖性过大的问题。
Shokoohi Yekta等人通过分割motif找出其内部的关联规则。在找出时间 序列中的K-motif序列后,将每一个motif分割成前件和后件两个部分,计算 出序列在每一个分割点处的MDL得分,将MDL得分最高的序列划分方式作 为规则输出。该方法结果的好坏完全取决于分割点的选取,且关联规则的前 件与后件之间通常存在间隔,这种拆分方法可能会将额外的区间序列附加到 前件或后件之中,这会影响规则挖掘的准确性,另一方面,该方法需要计算 不同分割点的MDL分值,这将导致时间复杂度较大。
He Y等人提出了一种找到motif之间关联规则的方法,仅使用单一的数 据集,使得方法性能的评估不够全面,且利用MDL评分准则对候选关联规则 进行评分,该方法需按照相应规律对规则进行比特压缩,这样仍然会丢失部 分信息,使得信息的准确度受到一定影响。
以上的一些方法尽管能挖掘出时间序列内的关联规则,为时间序列预测 提供决策信息,但仍存在一定的问题:1)大多数motif提取算法为了降低时 间复杂度,提高motif的提取速度,而采用了符号化时间序列的方法,这样可 能导致原始信息的丢失;2)传统的通过分割motif来构成一条时间序列关联 规则的方法时间复杂度较高,且不同的分割点可能带来完全不同的关联规则, 无法保证规则的一致性;3)在挖掘关联规则的时候没有较好地考虑关联规则 的预测性能,使其即便在随机数据集上,也能挖掘大量的关联规则,无法保 证规则的合理性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海海洋大学,未经上海海洋大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010084931.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:排课方法、系统、介质及装置
- 下一篇:贷中行为监控的方法及系统