[发明专利]基于Spark并行频繁项集挖掘方法在审
申请号: | 202111391423.7 | 申请日: | 2021-11-23 |
公开(公告)号: | CN114138860A | 公开(公告)日: | 2022-03-04 |
发明(设计)人: | 毛伊敏;吴斌;许春冬 | 申请(专利权)人: | 江西理工大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/22;G06F16/182;G06F17/16;G06N3/12 |
代理公司: | 重庆天成卓越专利代理事务所(普通合伙) 50240 | 代理人: | 王宏松 |
地址: | 341000 江*** | 国省代码: | 江西;36 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 spark 并行 频繁 挖掘 方法 | ||
本发明提出了一种基于Spark并行频繁项集挖掘方法,包括以下步骤:S1,通过矩阵存储获取支持度计数矩阵,并提供创建条件FP‑tree的支持度计数查询;然后根据获取的支持度计数,剔除不满足最小支持度的项,得到频繁1项集矩阵;然后通过非负矩阵分解策略SNMF分解储存频繁1项集的矩阵;S2,由S1的频繁1项集矩阵可得频繁1项集F‑list,采用遗传算法的分组策略GS‑GA对S1得到的频繁1项集均匀分组;S3,采用高效缩减树结构策略ERTS合并条件模式基,删除FP‑tree中不满足最大频繁项集的路径;然后并行挖掘分组的FP‑tree,获得频繁项集,并将结果输出到分布式文件系统HDFS中。本发明解决了创建条件FP‑tree的时空效率低,节点间的通信开销大,冗余搜索的问题;在时空效率上和推荐非空率上都有显著的提高。
技术领域
本发明涉及本发明属于大数据挖掘领域,尤其涉及一种基于Spark并行频繁项集挖掘方法。
背景技术
近几十年来,随着互联网技术、信息通信技术和传感技术的不断发展,越来越多的企业和机构拥有了大量数据,其中包含了大量潜在价值。如何快速并准确的从这些海量数据中挖掘出有价值的信息已成为当前社会迫切需要解决的问题之一。
关联规则是从这些海量数据中挖掘潜在价值的重要手段,其目的在于找出有趣的关联或数据集之间相关性关系。关联规则的挖掘过程常常分为两阶段,首先,从数据库中找出所有的频繁项集;然后,由这些频繁项集产生强关联规则。其中频繁项集的挖掘是关联规则挖掘中重要的一步。频繁项集挖掘方法有:多候选产生,如Apriori、划分、抽样等;模式增长,如FP-Growth、HMmine、FPMax、Close+等;垂直格式,如Eclat、CHARM等。多候选产生方法是通过迭代产生候选集并由比较最小支持度得到频繁集,其中典型算法是由Agrawal等提出的Apriori算法;模式增长方法是通过挖掘产生的频繁项构建一种树结构,遍历树结构产生频繁项集,其中典型的算法为J.Han等人提出的FP-Growth算法;垂直格式方法是将水平数据集转化垂直数据集,通过交运算得到频繁项集,其中典型算法是Eclat算法。这些算法在数据规模较小时能够显示出优势,但当数据量达到G级甚至更高级别时,这些算法就会因为存储和计算能力的上限变得非常低效,不适合海量数据的挖掘。因此并行化的计算思想显得尤为重要,通过改进频繁项集挖掘算法,并与分布式计算模型相结合成为当前研究的主要方向。
随着频繁项集挖掘算法在分布式计算模型中的广泛应用,以Spark为代表的分布式计算框架,因其计算速度快、简介易用、通用性强和支持多种运行模式等特点受到了广泛关注。越来越多研究人员提出基于Spark并行FP-Growth算法,利用Spark实现并行FP-Growth算法已成功应用到大数据挖掘中。其中,Chunduri等人提出了一种融合机器学习和Apache Spark的可扩展算法,解决了FP-growth算法不具有支持值的问题,实现了将改进的FP-growth算法移植到Spark计算模型上进行分布式计算。尽管该算法成功应用于Spark,但该算法依然存在以下三点不足:创建条件FP-tree时空效率低,节点间通信开销大,冗余搜索。
发明内容
本发明旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种基于Spark并行频繁项集挖掘方法。
为了实现本发明的上述目的,本发明提供了一种基于Spark并行频繁项集挖掘方法,包括以下步骤:
S1,通过矩阵存储获取支持度计数矩阵,并提供创建条件FP-tree的支持度计数查询;然后根据获取的支持度计数,剔除不满足最小支持度的项,得到频繁1项集矩阵;然后通过非负矩阵分解策略SNMF分解储存频繁1项集的矩阵,解决了创建条件FP-tree的时空效率低的问题;
S2,由S1的频繁1项集矩阵可得频繁1项集F-list,采用遗传算法的分组策略GS-GA对S1得到的频繁1项集均匀分组,缩减各分组生成的FP-tree结构,解决了节点间的通信开销大的问题;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江西理工大学,未经江西理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111391423.7/2.html,转载请声明来源钻瓜专利网。