[发明专利]一种基于KNL集群的近期数据流项集挖掘方法与装置在审
申请号: | 201710131405.2 | 申请日: | 2017-03-07 |
公开(公告)号: | CN106919694A | 公开(公告)日: | 2017-07-04 |
发明(设计)人: | 吴韶华 | 申请(专利权)人: | 郑州云海信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 罗满 |
地址: | 450018 河南省郑州市*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 knl 集群 近期 数据流 挖掘 方法 装置 | ||
技术领域
本发明涉及高性能计算领域,尤其涉及一种基于KNL集群的近期数据流项集挖掘方法与装置。
背景技术
数据流实际上就是连续移动的元素队伍,其中的元素是由相关数据的集合组成。令t表示任一时间戳,at表示在该时间戳到达的数据,流数据可以表示成{…,at-1,at,at+1,…}.区别于传统应用模型,流数据模型具有以下4点共性:(1)数据实时到达;(2)数据到达次序独立,不受应用系统所控制;(3)数据规模宏大且不能预知其最大值;(4)数据一经处理,除非特意保存,否则不能被再次取出处理,或者再次提取数据代价昂贵。
滑动窗口(sliding window)模型:滑动窗口对窗口起点和终点都没有明确给定,只明确给定窗口的长度W1。窗口保持一定长度在数据流D={d0,d1…,dn}上滑动,处理的数据流范围就由该窗口确定,随着窗口的滑动不断地把得到的结果输出。滑动窗口SW的长度既可由一个时间区间确定,也可由窗口所包含数据流元素个数确定;
滑动窗口的频繁项集:对于当前滑动窗口内数据,设I={i1,i2,…,in}是项的集合,事务数据集S={s0,s1…,sn},其中,数据集中每个事务s是项的集合,如果则称X是个项集。如果X中有k个元素,则称X为k-项集。对于一个项集X,如果其支持度大于等于用户给定的最小支持度阈值,则X为频繁项集。
目前在数据流频繁项挖掘中使用的方法是模式树,会造成空间复杂度过大、用户的操作体验低的技术问题。
发明内容
本发明实施例提供了一种基于KNL集群的近期数据流项集挖掘方法与装置,通过KNL集群的嵌套窗口滑动扫描数据流和遗传算法对数据流进行处理,实现对数据流频繁项集的挖掘,解决了目前在数据流频繁项挖掘中使用模式树造成的空间复杂度过大、用户的操作体验低的技术问题。
本发明实施例提供了一种基于KNL集群的近期数据流项集挖掘方法,包括:
随着滑动窗口的滑动扫描所述滑动窗口中的数据流;
通过遗传算法处理所述数据流然后挖掘出所述数据流的频繁项集。
优选地,
在扫描滑动窗口中的数据流之前,还包括:
设定滑动窗口的大小为W1。
优选地,
在随着滑动窗口的滑动扫描所述滑动窗口中的数据流之后,在通过遗传算法处理所述数据流然后挖掘出所述数据流的频繁项集之前还包括:
将所述滑动窗口分割为若干个大小为W2的嵌套窗口。
优选地,
通过遗传算法处理所述数据流然后挖掘出所述数据流的频繁项集具体为:
通过并行遗传算法对若干个大小为W2的所述嵌套窗口中的数据流进行第一频繁项集挖掘;
对若干个所述嵌套窗口对应的所述第一频繁项集合并扫描获得所述滑动窗口中所述数据流的第二频繁项集。
优选地,
在对若干个所述嵌套窗口对应的所述第一频繁项集合并扫描获得所述滑动窗口中所述数据流的第二频繁项集之后,还包括:
扫描数据流流动后的滑动窗口的新数据流,然后挖掘数据流流动后的嵌套子窗口的第三频繁项集,根据所述第三频繁项集和数据流未流动的嵌套子窗口的第四频繁项集计算数据流流动后的滑动窗口的第五频繁项集。
本发明实施例提供了一种基于KNL集群的近期数据流项集挖掘装置,包括:
扫描单元,用于随着滑动窗口的滑动扫描所述滑动窗口中的数据流;
频繁项集挖掘单元,用于通过遗传算法处理所述数据流然后挖掘出所述数据流的频繁项集。
优选地,
所述近期数据流项集挖掘装置还包括:
窗口设定单元,用于设定滑动窗口的大小为W1。
优选地,
所述近期数据流项集挖掘装置还包括:
嵌套窗口确定单元,用于将所述滑动窗口分割为若干个大小为W2的嵌套窗口。
优选地,
频繁项集挖掘单元包括嵌套窗口频繁项集挖掘子单元和合并子单元:
嵌套窗口频繁项集挖掘子单元,用于通过并行遗传算法对若干个大小为W2的所述嵌套窗口中的数据流进行第一频繁项集挖掘;
合并子单元,用于对若干个所述嵌套窗口对应的所述第一频繁项集合并扫描获得所述滑动窗口中所述数据流的第二频繁项集。
优选地,
所述近期数据流项集挖掘装置还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州云海信息技术有限公司,未经郑州云海信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710131405.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种提高热词曝光覆盖率的方法和装置
- 下一篇:一种信息推荐方法及终端