[发明专利]基于Spark并行频繁项集挖掘方法在审

申请号：	202111391423.7	申请日：	2021-11-23
公开（公告）号：	CN114138860A	公开（公告）日：	2022-03-04
发明（设计）人：	毛伊敏;吴斌;许春冬	申请（专利权）人：	江西理工大学
主分类号：	G06F16/2458	分类号：	G06F16/2458;G06F16/22;G06F16/182;G06F17/16;G06N3/12
代理公司：	重庆天成卓越专利代理事务所(普通合伙) 50240	代理人：	王宏松
地址：	341000 江***	国省代码：	江西;36
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提出了一种基于Spark并行频繁项集挖掘方法，包括以下步骤：S1，通过矩阵存储获取支持度计数矩阵，并提供创建条件FP‑tree的支持度计数查询；然后根据获取的支持度计数，剔除不满足最小支持度的项，得到频繁1项集矩阵；然后通过非负矩阵分解策略SNMF分解储存频繁1项集的矩阵；S2，由S1的频繁1项集矩阵可得频繁1项集F‑list，采用遗传算法的分组策略GS‑GA对S1得到的频繁1项集均匀分组；S3，采用高效缩减树结构策略ERTS合并条件模式基，删除FP‑tree中不满足最大频繁项集的路径；然后并行挖掘分组的FP‑tree，获得频繁项集，并将结果输出到分布式文件系统HDFS中。本发明解决了创建条件FP‑tree的时空效率低，节点间的通信开销大，冗余搜索的问题；在时空效率上和推荐非空率上都有显著的提高。
搜索关键词：	基于 spark 并行频繁挖掘方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

暂无信息

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于江西理工大学，未经江西理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/202111391423.7/，转载请声明来源钻瓜专利网。

上一篇：一种制备石墨烯纳米粒子的电化学方法
下一篇：一种制备碳纳米管-石墨烯悬浮液的电化学方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于Spark并行频繁项集挖掘方法在审

专利文献下载