[发明专利]一种海量数据频繁项集挖掘方法在审

专利信息
申请号: 201910477465.9 申请日: 2019-06-03
公开(公告)号: CN110222090A 公开(公告)日: 2019-09-10
发明(设计)人: 韩希先;陈剑;赖国骏 申请(专利权)人: 哈尔滨工业大学(威海)
主分类号: G06F16/2458 分类号: G06F16/2458
代理公司: 济南舜源专利事务所有限公司 37205 代理人: 刘晓政
地址: 264209 *** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 频繁项集 原始事务 数据集 挖掘 事务数据 支持度 海量数据 读取 计算开销 挖掘算法 写入文件 复用 过滤 集合 扫描
【说明书】:

发明提供一种海量数据频繁项集挖掘方法,包括:采用频繁项集挖掘算法对原始事务数据集TO进行挖掘,获得原始事务数据集TO对应的所有的局部频繁项集;扫描原始事务数据集TO,对应计算上述所获得的每个局部频繁项集在原始事务数据集TO上的支持度计数,对所获得的局部频繁项集进行过滤,获取支持度不小于ω的各局部频繁项集,并将所获取的各局部频繁项集及计算所得的对应的支持度计数对应写入文件Fqf中;读取新增事务数据集TΔ,并判断新增事务数据集TΔ是否为空,之后基于新增事务数据集TΔ是否为空进行频繁项集挖掘。本发明在整个挖掘过程中复用了文件Fqf、集合STCAD和数组cntΔ,一定程度上减少了计算开销,从而可提高频繁项集的挖掘速率。

技术领域

本发明涉及数据挖掘技术领域,具体涉及一种海量数据频繁项集挖掘方法。

背景技术

频繁项集挖掘一直以来都是数据挖掘中最活跃的领域之一。它在现实生活中具有非常广泛的应用,例如,它广泛应用于数据挖掘、软件错误探测、时空数据分析、生物分析等多个研究领域。由于其实际意义,频繁项集挖掘已经引起了广泛的关注。

在数据存储领域,数据通常以只读/只添加模式存储,整个事务数据集可以被分为两个部分:原始事务数据集和新增事务数据集。一定时间或条件下,新增事务数据集中的数据被并入原始事务数据集中,此时原始事务数据集中数据在增加,而新增事务数据集中的数据因被并入原始事务数据集而被清空,当有新增数据的写入时,新增数据被写入新增事务数据集,之后在再次满足一定时间或条件时,新增事务数据集中新增写入的数据再次被并入原始事务数据集,而新增事务数据集继续用于等待新数据的存入,如此往复。可见,在只读/只添加模式进行存储下,原事务数据集始终由原始事务数据集和新增事务数据集组成。

多年来,国内外的科研工作者们已经提出了许多相关算法。现存的算法可以分为两类:基于候选生成的算法、基于模式增长的算法。基于候选生成的算法首先生成候选项集,然后,通过扫描数据库来验证候选项集,并识别出其中的频繁项集。此外,基于候选生成的算法还利用反单调性来剪切搜索空间。但是,这类算法需要多遍扫描数据库,当处理海量数据时,这将带来很高的I/O开销。基于模式增长的算法不会直接生成候选项集,它通过构建一种特殊的基于树的数据结构来保存数据库中频繁项集的必要信息。通过利用这种数据结构,频繁项集可以被高效的计算出来,然而这类算法构建数据结构十分复杂,并且在处理海量数据时,内存需求量通常会超出可用的内存,导致数据结构无法在内存中正确构建。

为此,本发明提供一种海量数据频繁项集挖掘方法,用于实现对只读/只添加模式存储模式下的海量数据频繁项集的挖掘。

发明内容

针对现有技术的上述不足,本发明提供一种海量数据频繁项集挖掘方法,用于实现对只读/只添加模式存储模式下海量数据频繁项集的挖掘,以提高对海量数据频繁项集的挖掘速率。

本发明提供了一种海量数据频繁项集挖掘方法,该海量数据频繁项集挖掘方法用于挖掘总事务数据集T中满足全局最小支持度minsup的频繁项集,所述的全局最小支持度minsup为预先设定的总事务数据集T上的最小支持度;

所述的总事务数据集T包括原始事务数据集TO和新增事务数据集TΔ

该海量数据频繁项集挖掘方法包括步骤:

采用频繁项集挖掘算法对原始事务数据集TO进行挖掘,获得原始事务数据集TO对应的所有的局部频繁项集;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学(威海),未经哈尔滨工业大学(威海)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910477465.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top