[发明专利]近似保序序列模式挖掘方法在审
申请号: | 202110306560.X | 申请日: | 2021-03-23 |
公开(公告)号: | CN112783968A | 公开(公告)日: | 2021-05-11 |
发明(设计)人: | 武优西;刘锦;耿萌;孟玉飞;王珍;杨鸿茜;杨仕琦 | 申请(专利权)人: | 河北工业大学 |
主分类号: | G06F16/26 | 分类号: | G06F16/26;G06F16/2458;G06F16/22 |
代理公司: | 天津翰林知识产权代理事务所(普通合伙) 12210 | 代理人: | 付长杰 |
地址: | 300130 天津市红桥区*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 近似 序列 模式 挖掘 方法 | ||
本发明为近似保序序列模式挖掘方法,当前的保序序列模式挖掘只挖掘时间序列中满足支持度阈值的相对顺序完全相同(最精确)的子序列,但只挖掘最精确的保序模式往往会遗漏一些重要信息。本发明挖掘方法,既能挖掘最精确的保序模式,也能根据输入参数值的不同挖掘出近似程度不同的保序模式。可以挖掘出更多有意义的保序模式,适应更多的应用领域,更好地帮助人们进行分析和预测。在候选模式生成方面,本方法采用了基于前后缀拼接的模式融合策略,减少了无意义候选模式的数量。在模式支持度计算方面,本方法在频繁模式出现位置的左右获取候选序列,避免了重复扫描数据库,大大减少了模式匹配次数,挖掘性能有了显著提升。
技术领域
本发明的技术方案涉及电数字数据处理技术领域,具体地说是近似保序序列模式挖掘方法。
背景技术
时间序列数据作为一种常见而重要的数据,广泛存在于人类的生产生活中,如客流量分析、市场营销、河流流量、股票价格以及心/脑电图分析等。与字符序列不同,时间序列数据是按照时间顺序排列而成的数值序列,蕴含着大量的规律信息,为了快速有效地获得其中有价值的信息,研究者们提出了诸多时间序列分析方法,如序列模式挖掘方法、离散短时傅里叶变换法和逻辑回归法等。由于序列模式挖掘具有高效、可解释性强的特性,受到了广泛地关注,目前已被广泛应用在生物信息学、疾病检测、市场营销、网络安全等领域。
然而在一些实际应用中,有时元素值的变化趋势要比元素值本身更有意义。例如在股票分析中,股票的变化趋势要比股票的实际价格更值得研究;在气温预测方面,气温的变化显然比气温数值的大小更有意义。因此保序模式的概念应运而生,研究保序模式可以帮助人们了解事物的发展规律。
例A.给定时间序列S=(s1,s2,s3,s4,s5,s6,s7,s8,s9,s10,s11,s12,s13,s14,s15,s16,s17)=(9,12,11,17,16,21,14,18,15,19,21,19,26,18,25,26,27),给定模式P=(p1,p2,p3,p4,p5)=(6,5,8,4,7)。
由模式的相对顺序所表示的模式就是模式的保序模式,保序模式是根据模式中每个元素的大小来进行排序而生成的模式。对于模式P,4是它最小的元素,所以4在模式P中的相对顺序为1;5是它第二小的元素,所以5在模式P中的相对顺序为2;以此类推,将模式P转换为相对顺序表示的模式就是模式P的保序模式,模式P的保序模式r(P)=r(p1)r(p2)r(p3)r(p4)r(p5)=(3,2,5,1,4)。保序模式匹配的任务就是在给定的时间序列S中找到所有与模式P具有相同保序模式的子序列,如图1所示,子序列t1=(s4,s5,s6,s7,s8)和子序列t2=(s11,s12,s13,s14,s15)都是模式P在时间序列S中的保序出现,因为它们与模式P的保序模式一致,都为(3,2,5,1,4)。保序模式可以很好的表示时间序列的趋势特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河北工业大学,未经河北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110306560.X/2.html,转载请声明来源钻瓜专利网。