[发明专利]基于Spark并行频繁项集挖掘方法在审

申请号：	202111391423.7	申请日：	2021-11-23
公开（公告）号：	CN114138860A	公开（公告）日：	2022-03-04
发明（设计）人：	毛伊敏;吴斌;许春冬	申请（专利权）人：	江西理工大学
主分类号：	G06F16/2458	分类号：	G06F16/2458;G06F16/22;G06F16/182;G06F17/16;G06N3/12
代理公司：	重庆天成卓越专利代理事务所(普通合伙) 50240	代理人：	王宏松
地址：	341000 江***	国省代码：	江西;36
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 spark 并行频繁挖掘方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于Spark并行频繁项集挖掘方法，其特征在于，包括以下步骤：

S1，通过矩阵存储获取支持度计数矩阵，并提供创建条件FP-tree的支持度计数查询；然后根据获取的支持度计数，剔除不满足最小支持度的项，得到频繁1项集矩阵；然后通过非负矩阵分解策略SNMF分解储存频繁1项集的矩阵；

S2，由S1的频繁1项集矩阵可得频繁1项集F-list，采用遗传算法的分组策略GS-GA对S1得到的频繁1项集均匀分组；

S3，采用高效缩减树结构策略ERTS合并条件模式基，删除FP-tree中不满足最大频繁项集的路径；然后并行挖掘分组的FP-tree，获得频繁项集，并将结果输出到分布式文件系统HDFS中。

2.根据权利要求1所述的一种基于Spark并行频繁项集挖掘方法，其特征在于，所述S1包括以下步骤：

S1-1，支持度计数矩阵获取：先从分布式文件系统HDFS中获取数据库信息，转化为初始抽象弹性分布式数据集RDD，利用RDD的faltMap()函数生成来自数据集的所有项；接着在数据集的每个项上，应用Map()函数生成(item,1)键值对；然后存储每个事务中各个项两两组合的支持度计数于矩阵之中；最后使用reduceByKey来进行支持度统计，获得支持度计数矩阵；

S1-2，频繁1项集矩阵获取：根据获取的支持度计数，剔除不满足最小支持度的事务，得到频繁1项集，并更新矩阵的存储信息，获得频繁1项集矩阵；

S1-3，矩阵分解：采用非负矩阵分解函数FNMF分解频繁1项集矩阵。

3.根据权利要求2所述的一种基于Spark并行频繁项集挖掘方法，其特征在于，所述S1-3中的矩阵分解包括：

非负矩阵分解函数FNMF为：

其中V,W,H为非负矩阵；表示V属于维度为a×b的非负矩阵，表示W属于维度为a×c的非负矩阵，表示H属于维度为c×b的非负矩阵；a、b、c表示矩阵维度；

min表示取最小值；

为惩罚项；

||·||_F表示F范式；

γ为稀疏参数；

·^T表示矩阵的转置。

4.根据权利要求1所述的一种基于Spark并行频繁项集挖掘方法，其特征在于，所述S2中的遗传算法的分组策略GS-GA包括以下步骤：

S2-1，最优解获取：在获取频繁1项集F-list之后，先采用“高权二进”编码HWB，编码转换F-list，得到初始种群；然后采用个体适应度计算公式FCIF，筛选初始种群，获得下一代种群；最后，根据获得的新的种群，遗传变异种群，获得最优解；