[发明专利]一种基于数组存储的序列模式挖掘方法有效
申请号: | 201910427754.8 | 申请日: | 2019-05-22 |
公开(公告)号: | CN110209708B | 公开(公告)日: | 2023-09-19 |
发明(设计)人: | 胡庆顺;任晓强 | 申请(专利权)人: | 齐鲁工业大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/22 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 孙园园 |
地址: | 250353 山东省济南*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数组 存储 序列 模式 挖掘 方法 | ||
本发明公开了一种基于数组存储的序列模式存储方法及挖掘方法,属于数据挖掘,要解决的技术问题在序列模式挖掘中保证如何在不损失挖掘速度的情况下,有效的节约存储空间;存储方法为对于每一个序列,设置一个存储数组,通过存储数组存储其含有的频繁单项所在事务的序列位置。挖掘方法包括:通过基于数组存储的序列模式存储方法,存储序列模式的事务;将频繁单项逐一进行组合,得到具有两项集的组合序列,判断组合序列是否为频繁序列,得到频繁两项集;依次进行迭代计算,将得到的新的频繁n项集和频繁单项逐一进行组合计算,直到找不到频繁序列为止。该方法针对序列模式数据中存在的大量空项,保证在不损失挖掘速度的情况下,有效的节约存储空间。
技术领域
本发明涉及数据挖掘领域,具体地说是一种基于数组存储的序列模式挖掘方法。
背景技术
序列模式挖掘(Sequential pattern mining)是指在序列数据库中挖掘出频繁的子模式作为后期知识发现的依据。目前,序列数据挖掘在许多领域扮演着越来越重要的角色,例如通过分析超市数据预期客户未来的行为模式,通过分析web日志预期用户的操作习惯,通过分析DNA序列可以发现某种疾病的机理等,使用高效的序列模式挖掘算法对以上数据进行分析可以有效地帮助决策者做出更好的决策,以获得更大的社会效益。所以研究怎样提高序列模式的效率是非常有意义的。
在序列模式挖掘算法中,常用的有AprioriAll,GSP,FreeSpan,PrefixSpan,Spam等,特别是SPAM算法,该算法最早由Jay Ayres,Jason Flannick借鉴SPADE算法的灵感提出,由于其效率较高,得到了广泛的应用。SPAM算法首先将频繁集数据映射为位图并存储在内存中,再利用位运算来实现连接操作,寻找频繁序列,在数据访问和计算上都具有很高的效率,SPAM首先假定数据可以完全驻留在内存中,该算法将数据源的数据存储到垂直位图中,然后采用深度优先搜索策略与有效的修剪机制相结合的方式生成频繁模式。
以上算法存在如下问题:在计算序列模式时,需要频繁的访问数据集来确认是否可以进行连接,造成时间效率下降;同时,将数据集在内存中按序列模式展开,以快速进行计算,造成空间开销增大。
针对序列模式数据中存在的大量空项,如何提供一种高效的存储及挖掘算法,以保证在不损失挖掘速度的情况下,有效的节约存储空间,是需要解决的技术问题。
发明内容
本发明的技术任务是针对以上不足,提供一种基于数组存储的序列模式挖掘方法,来解决在序列模式挖掘中保证如何在不损失挖掘速度的情况下,有效的节约存储空间的问题。
第一方面,本发明提供一种基于数组存储的序列模式存储方法,对于每一个序列,设置一个存储数组,通过存储数组存储其含有的频繁单项所在事务的序列位置;其中,序列模式数据集存储有序列中的用户、事务和项目,一个序列为一个用户相关事务的先后顺序。
在本技术方案中,每个序列均对应有一个存储数组,通过存储数组存储该序列对应的频繁单项所在事务的序列位置,空项不存储,不必在内存中完全展开序列模式数据集,基于该存储方法,在进行序列模式挖掘时,不需要频繁访问数据库。
作为优选,包括如下步骤:
通过查找每一个序列,获取满足最小支持度的频繁单项;
对于每一个频繁单项,通过一个对应的存储数组存储其所在事务的序列位置。
第二方面,本发明提供一种基于数组存储的序列模式挖掘方法,包括:
S100、通过如权利要求1或2所述的基于数组存储的序列模式存储方法,存储序列模式的事务;
S200、将频繁单项逐一进行组合,得到具有两项集的组合序列,判断组合序列是否为频繁序列,得到频繁两项集;
S300、依次进行迭代计算,将得到的新的频繁n项集和频繁单项逐一进行组合计算,直到找不到频繁序列为止;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于齐鲁工业大学,未经齐鲁工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910427754.8/2.html,转载请声明来源钻瓜专利网。