[发明专利]保序序列模式挖掘方法在审
申请号: | 202010544303.5 | 申请日: | 2020-06-15 |
公开(公告)号: | CN111581262A | 公开(公告)日: | 2020-08-25 |
发明(设计)人: | 武优西;户倩;郭媛;王晓慧;赵晓倩;王珠林;崔文峰 | 申请(专利权)人: | 河北工业大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06N5/02 |
代理公司: | 天津翰林知识产权代理事务所(普通合伙) 12210 | 代理人: | 胡安朋 |
地址: | 300130 天津市红桥区*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 序列 模式 挖掘 方法 | ||
本发明保序序列模式挖掘方法,涉及电数字数据处理技术领域,该方法利用模式融合方法生成候选模式,减少了候选模式的个数、通过一系列转换和验证步骤来计算候选模式的模式支持度,克服了现有的技术针对从时间序列中挖掘频繁模式,存在很难兼顾求解的准确性、一般性和完备性,很难保证在对时间序列处理时重要信息不被丢失,很难通过挖掘频繁模式来对关键趋势进行分析的缺陷。
技术领域
本发明的技术方案涉及电数字数据处理技术领域,具体地说是保序序列模式挖掘方法。
背景技术
序列模式挖掘已成为数据挖掘中的重要任务之一,它在序列分析、分类和预测等方面都有广泛的应用,其任务是在海量的序列数据中发现频繁出现的模式。目前序列数据通常分为两种:字符序列和时间序列。常见的字符序列有DNA序列、蛋白质序列等,挖掘其中的频繁模式可以帮助人们解决生物学中的问题;时间序列是随时间推移进行测量记录的数值型数据,如每日的股价、石油的产量、每日的温度等都是常见的时间序列,单纯关注其数值的大小意义不大,人们对于数据所呈现的趋势更感兴趣,例如,在股市中,分析师可能想知道一个公司的股价是否存在连续10天下跌然后在接下来的5天内上涨的时期,在这种情况下,股价的变化模式比股价价格的实际价值更有意义。故从时间序列中发现频繁发生的趋势,将帮助人们了解事情发展规律,为人们预测和决策提供理论依据。
频繁模式是指模式支持度≥最小支持度阈值minsup的模式,即模式在数据集中的出现数≥最小支持度阈值minsup。目前已经提出很多针对字符序列的频繁模式挖掘方法,然而它们却不能直接运用到时间序列挖掘中,因为时间序列具有高维性、连续性、数据量大等显著特点,在时间序列挖掘前,通常需要对时间序列进行一步预处理,使数值型数据转换为其他域的数据。常用的方法是将时间序列符号化处理,如常用的SAX方法,将时间序列的数值型数据转换为字符数据后再进行挖掘,但是此预处理步骤存在的缺陷是:它需要人为设定参数,过程中容易丢失一些重要信息,并且一定程度上破坏了时间序列的连续性。以SAX方法为例,它会使得不同趋势的两条时间序列符号化后得到相同的字符序列,如说明书附图的图1的(a)和(b)显示,两段趋势差异显著的时间序列,采用SAX进行符号化后,均被符号化为了“beccde”,这对于时间序列的趋势分析十分不利,故需要更完备的挖掘方法。
保序的概念为时间序列的趋势分析提供了新的思路,目前已被运用在保序匹配问题上,该思路是在人们感兴趣的领域中寻找受相对顺序影响,而不是受它们的绝对值影响的模式,当子序列与给定模式的相对顺序相同时则代表匹配成功。下例A对相对顺序概念和保序序列模式匹配问题进行了详细说明。
例A.给定时间序列S=(s1,s2,s3,s4,s5,s6,s7,s8,s9,s10,s11,s12,s13,s14,s15,s16,s17)=(9,12,11,17,16,21,14,18,15,19,21,19,26,18,25,26,27),模式P=(p1,p2,p3,p4,p5)=(6,5,8,4,7)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河北工业大学,未经河北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010544303.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:钢铁酸洗液中回收盐酸应用
- 下一篇:一种高牢度分散紫染料