[发明专利]一种海量数据频繁项集挖掘方法在审
申请号: | 201910477465.9 | 申请日: | 2019-06-03 |
公开(公告)号: | CN110222090A | 公开(公告)日: | 2019-09-10 |
发明(设计)人: | 韩希先;陈剑;赖国骏 | 申请(专利权)人: | 哈尔滨工业大学(威海) |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458 |
代理公司: | 济南舜源专利事务所有限公司 37205 | 代理人: | 刘晓政 |
地址: | 264209 *** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种海量数据频繁项集挖掘方法,包括:采用频繁项集挖掘算法对原始事务数据集TO进行挖掘,获得原始事务数据集TO对应的所有的局部频繁项集;扫描原始事务数据集TO,对应计算上述所获得的每个局部频繁项集在原始事务数据集TO上的支持度计数,对所获得的局部频繁项集进行过滤,获取支持度不小于ω的各局部频繁项集,并将所获取的各局部频繁项集及计算所得的对应的支持度计数对应写入文件Fqf中;读取新增事务数据集TΔ,并判断新增事务数据集TΔ是否为空,之后基于新增事务数据集TΔ是否为空进行频繁项集挖掘。本发明在整个挖掘过程中复用了文件Fqf、集合STCAD和数组cntΔ,一定程度上减少了计算开销,从而可提高频繁项集的挖掘速率。 | ||
搜索关键词: | 频繁项集 原始事务 数据集 挖掘 事务数据 支持度 海量数据 读取 计算开销 挖掘算法 写入文件 复用 过滤 集合 扫描 | ||
【主权项】:
1.一种海量数据频繁项集挖掘方法,该海量数据频繁项集挖掘方法用于挖掘总事务数据集T中满足全局最小支持度minsup的频繁项集,所述的全局最小支持度minsup为预先设定的总事务数据集T上的最小支持度;其特征在于,所述的总事务数据集T包括原始事务数据集TO和新增事务数据集TΔ;该海量数据频繁项集挖掘方法包括步骤:采用频繁项集挖掘算法对原始事务数据集TO进行挖掘,获得原始事务数据集TO对应的所有的局部频繁项集;扫描原始事务数据集TO,对应计算上述所获得的每个局部频繁项集在原始事务数据集TO上的支持度计数,依据局部最小支持度ω,对所获得的局部频繁项集进行过滤,获取支持度不小于ω的各局部频繁项集,并将所获取的支持度不小于ω的各局部频繁项集及计算所得的对应的支持度计数对应写入文件Fqf中;读取新增事务数据集TΔ,并判断新增事务数据集TΔ是否为空:是,则依据总事务数据集T中的事务的数目n以及所述的全局最小支持度minsup,对所述文件Fqf中的局部频繁项集进行过滤,得到过滤后的支持度计数不小于全局最小支持度计数n×minsup的局部频繁项集并输出,所输出的各局部频繁项集即为总事务数据集T上满足所述全局最小支持度minsup的全部的频繁项集;否,则采用增量更新方法挖掘总事务数据集T上的频繁项集;其中,所述的局部最小支持度ω为预先设定的原始事务数据集TO上的最小支持度,局部最小支持度ω<全局最小支持度minsup。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学(威海),未经哈尔滨工业大学(威海)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910477465.9/,转载请声明来源钻瓜专利网。