[发明专利]一种基于Spark框架的增量式频繁项集挖掘方法在审
申请号: | 201811551301.8 | 申请日: | 2018-12-18 |
公开(公告)号: | CN109739897A | 公开(公告)日: | 2019-05-10 |
发明(设计)人: | 何梦思;唐卓;李肯立;李克勤;付仲明;肖伟 | 申请(专利权)人: | 湖南大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458 |
代理公司: | 长沙市融智专利事务所(普通合伙) 43114 | 代理人: | 龚燕妮 |
地址: | 410082 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于Spark框架的增量式频繁项集挖掘方法,首先实现一种基于Spark的自适应并行Apriori算法,使用自适应算法来寻找具有更高精度和效率的频繁模式,可以有效解决传统Apriori算法在面对大规模数据时处理能力不足的问题。接着,在并行Apriori算法的基础上实现增量式Apriori算法,能够增量处理动态数据集,大幅减少参与计算的数据量,有效解决Apriori频繁项集挖掘方法的时效性问题。 | ||
搜索关键词: | 频繁项集 增量式 有效解决 挖掘 并行 大规模数据 自适应算法 动态数据 能力不足 频繁模式 增量处理 时效性 数据量 自适应 | ||
【主权项】:
1.一种基于Spark框架的增量式频繁项集挖掘方法,其特征在于,包括以下几个步骤:步骤1:获取原始数据集AprioriDB的初始一元频繁项集;依据设定的频繁项集最小支持度,计算原始数据集AprioriDB中每个项的支持度,将大于或等于设定的频繁项集最小支持度的项作为初始一元频繁项集;步骤2:利用k‑1元频繁项集Lk‑1迭代生成k元频繁项集Lk;步骤3:按照步骤1‑2所述方法,提取新增数据集Aprioridb的频繁项集和对应的支持度,Aprioridb的频繁项集及其支持度结果记为f;步骤4:运行任务taskFRead读取原始数据集AprioriDB的频繁项集及对应的支持度,AprioriDB的频繁项集及其支持度结果记为F;步骤5:运行任务taskClassify读取并合并f和F,依据支持度的合并结果,将所有的频繁项集进行分类,得到三种不同类型的项集,分别是:项集F∩f、项集f‑F、F‑f;同时运行任务taskdbRead和taskDBRead读取原始数据集AprioriDB和新增数据集Aprioridb;其中,项集F∩f中的每个项集在AprioriDB和Aprioridb中都是频繁项集;项集f‑F是指从f中去除F中存在的项集,需要扫描AprioriDB,并计算f‑F中每一个项集在AprioriDB中的支持度;项集F‑f是指从F中去除f中存在的项集,需要扫描Aprioridb,计算F‑f中每一个项集在Aprioridb中的支持度;步骤6:同时运行三个不同的任务,分别读取并更新项集F∩f、项集f‑F、项集F‑f中的每个项集的支持度;其中,项集F∩f中的所有频繁项集记为DirectF;项集f‑F中的每个项集通过扫描AprioriDB计算各项集在整个数据集中的最终支持度;再筛选出支持度小于MIN_SUP×(D×d)的项集,获得所有频繁项集scan_DBF;项集F‑f中的每个项集扫描Aprioridb计算各项集在整个数据集中的最终支持度;再过滤出支持度少于MIN_SUP×(D×d)的项集,获得所有频繁项集果scan_dbF;步骤7:运行任务taskUnion合并频繁项集结果DirectF,scan_DBF和scan_dbF以得到最终的频繁项集结果F′。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811551301.8/,转载请声明来源钻瓜专利网。