[发明专利]基于并行PSO的最大容错频繁项集挖掘方法有效
申请号: | 201910429541.9 | 申请日: | 2019-05-22 |
公开(公告)号: | CN110309179B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 张红梅;齐东升 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | G06F16/2455 | 分类号: | G06F16/2455;G06F16/2458;G06N3/006 |
代理公司: | 桂林市持衡专利商标事务所有限公司 45107 | 代理人: | 陈跃琳 |
地址: | 541004 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 并行 pso 最大 容错 频繁 挖掘 方法 | ||
本发明公开一种基于并行PSO的最大容错频繁项集挖掘方法,将目标事务数据库转换为对应的二进制矩阵,若转换后的二进制矩阵是稀疏矩阵,需要设定最小项支持度来删除不满足该阈值的项,根据矩阵维度初始化粒子群,在粒子群算法的速度更新公式中加入了高斯扰动项防止种群陷入局部最优,根据容错块的概念设计出粒子群算法的适应值函数,将种群中粒子转变成Spark平台中的RDD数据集,经过迭代后达到终止条件,得到最大容错块,当容错块的支持度大于最小支持度阈值时,则该容错块对应的项集为最大容错项集。本发明提高了算法的运行效率,保证了在相同目标事务数据库不同容错度的条件算法效率不变,同时对于稀疏型目标事务数据库也具有较高的性能。
技术领域
本发明涉及频繁项集挖掘技术领域,具体涉及一种基于并行PSO的最大容错频繁项集挖掘方法。
背景技术
频繁项集挖掘问题是找出所有频繁的项集,即那些达到一个给定最小阈值的项的集合。这个问题是数据挖掘和知识发现的基础,比如关联规则的挖掘,子空间聚类等。频繁项集作为数据挖掘方向一个重要成果,其反映的是无噪环境下对数据的挖掘。在很多工程研究领域中,由于数据中往往存在噪声从而使得频繁项集的挖掘变得更加困难。这些数据中的噪声可能是由于测量误差、缺失值以及某些反常情形等多种原因造成的。以往消除噪声的方法往往是将比较大的模式划分成较小的模式。但是这样处理后得到的频繁项集只是原来真实频繁项集的片段,反映出的知识和信息也比较少和片段化。除了应用在噪声这一背景外,传统的频繁项集挖掘都是基于支持度判定的,但是这种定义方式容易忽略一些潜在的模式,例如,商店中共有五种水果,80%的消费者会购买所有水果中其中四种,完全利用支持度来对频繁项集的传统挖掘方式也有其无法发现的频繁模式。
频繁项集是容错频繁项集的基础,目标事务数据库中项集的支持度具有反单调性,即项集的支持度始终不会低于其任何超集的支持度。Agrawal和Srikant利用这一重要特性提出经典的Apriori算法,该算法的主要思想是:在候选频繁项集被一一验证其支持度的时,若该项集的支持度小于最小阈值,则它的超集必定不属于频繁项集。此后绝大多数算法都是在该算法的基础上优化改进后得到的。同样容错频繁项集也具有此特性。为了恢复原始数据中包含的频繁项集或发现更为有趣的知识,不少学者提出了很多的容错频繁项集的定义。文献1[Yang C,Fayyad U,Bradley PS(2001)Efficient discovery of error-tolerant frequent itemsets in high dimensions.In:Proceedings of the ACMSIGKDD international conference on knowledge discovery and data mining,KDD’01,pp 194–203]提出了强容错频繁项集和弱容错频繁项集,文献2[iu j,Paulsen S,SunX,Wang W,Nobel A,Prins J(2006)Mining approximate frequent itemsets in thepresence of noise:Algorithm and analysis.In:Proceedings of the SIAMinternational conference on data mining,SDM’06,pp 405–416]提出了近似频繁项集(Approximate frequent itemset,AFI)。文献3[Poernomo AK,Gopalkrishnan V(2009)Towards efficient mining of proportional fault-tolerant frequent itemsets.In:Proceedings of the ACM SIGKDD international conference on knowledge discoveryand data mining,KDD’09,pp 697–706]定义了比例容错频繁项集(proportional faluttolerant itemsets,FTFIs),允许一定比例的错误出现在项集和事务中。因此,AFI也可以被看作强(弱)频繁项集的特例。除此之外,文献3也提出了恒定的FTFIs,即允许每个事务和项有固定的差错数目。文献4[Haibing Lu,Wendong Zhu,Joseph Phan,M.Ghiassi,YiFang,Yuan Hong,Xiaoyun He.Fault-tolerant tile mining[J].Expert Systems withApplications,2018,101:25-42]提出了容错块(Fault-tolerant tile)的概念,容错块是在比例容错项集的基础上发展出来的一个解决方法,将数据挖掘中的块挖掘应用到容错频繁项集的问题上。然而,目前大多数容错频繁项集挖掘算法通过设计整数线性规划(ILP)方程的方式来挖掘容错频繁项集,在同一个目标事务数据库中算法的效率随着容错度的变化有较大的波动,而且对于稀疏型数据库和大型目标事务数据库算法的效率不高。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910429541.9/2.html,转载请声明来源钻瓜专利网。