[发明专利]基于并行PSO的最大容错频繁项集挖掘方法有效
申请号: | 201910429541.9 | 申请日: | 2019-05-22 |
公开(公告)号: | CN110309179B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 张红梅;齐东升 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | G06F16/2455 | 分类号: | G06F16/2455;G06F16/2458;G06N3/006 |
代理公司: | 桂林市持衡专利商标事务所有限公司 45107 | 代理人: | 陈跃琳 |
地址: | 541004 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种基于并行PSO的最大容错频繁项集挖掘方法,将目标事务数据库转换为对应的二进制矩阵,若转换后的二进制矩阵是稀疏矩阵,需要设定最小项支持度来删除不满足该阈值的项,根据矩阵维度初始化粒子群,在粒子群算法的速度更新公式中加入了高斯扰动项防止种群陷入局部最优,根据容错块的概念设计出粒子群算法的适应值函数,将种群中粒子转变成Spark平台中的RDD数据集,经过迭代后达到终止条件,得到最大容错块,当容错块的支持度大于最小支持度阈值时,则该容错块对应的项集为最大容错项集。本发明提高了算法的运行效率,保证了在相同目标事务数据库不同容错度的条件算法效率不变,同时对于稀疏型目标事务数据库也具有较高的性能。 | ||
搜索关键词: | 基于 并行 pso 最大 容错 频繁 挖掘 方法 | ||
【主权项】:
1.基于并行PSO的最大容错频繁项集挖掘方法,其特征是,具体包括步骤如下:步骤1、将目标事务数据库转换为对应的二进制矩阵,其中二进制矩阵的行和列分别代表目标事务数据库中的事务和项,二进制矩阵的元素值为1代表项出现在对应的事务中,二进制矩阵的元素值为0代表项没有出现在对应的事务中;步骤2、判断转换后二进制矩阵是否为稀疏矩阵:若是稀疏矩阵,则先删除二进制矩阵中支持度小于设定最小项支持度阈值的项,再执行步骤3;若不是稀疏矩阵,则直接执行步骤3;步骤3、初始化粒子群,包括种群中每个粒子的初始位置向量和速度向量,每个粒子初始的局部最优值,以及种群初始的全局最优值;并设置计数器用来计算种群全局最优值连续多少代保持不变;步骤4、对粒子群中的粒子进行并行化,得到粒子群RDD数据集;步骤5、计算粒子群RDD数据集中每个粒子的适应度值,其中适应度函数是由粒子当前位置作为自变量,容错块面积作为因变量,事务数据集对应的二进制矩阵为常量组成的函数,通过将每个粒子的位置向量代入适应度函数得到对应的容错块面积为该粒子的适应度值;步骤6、判断每个粒子的适应度值是否大于该粒子的当前局部最优值:如果是,则将该粒子的当前局部最优值更新为该粒子的适应度值;否则,保持该粒子的当前局部最优值不变;步骤7、收集全局最优值中所有粒子的局部最优值,找出其中最大的局部最优值,并将其与粒子群的当前全局最优值比较:若最大的局部最优值大于当前全局最优值比较,则将粒子群的当前全局最优值更新为最大的局部最优值,并将计数器置0;否则,保持粒子群的当前全局最优值不变,并令计数器的计数值加1;步骤8、判断计数器的计数值是否达到给定的计数阈值:如果达到,则输出当前全局最优值所对应的粒子的位置向量,以及该粒子的支持度,并执行步骤10;否则,执行步骤9;步骤9、向粒子群RDD数据集的所有粒子广播当前全局最优值,粒子群RDD数据集中每个粒子基于该当前全局最优值进行位置向量和速度向量的更新;步骤10、将当前全局最优值所对应的粒子的位置向量转换为项集的形式,并判断该粒子的支持度是否大于给定的最小支持度阈值:如果是,则该项集为目标事务数据库的最大容错频繁项集;否则,该目标事务数据库在给定的最小支持度条件下没有容错频繁项集。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910429541.9/,转载请声明来源钻瓜专利网。