[发明专利]基于连通度的最大频繁项集挖掘方法有效
申请号: | 201611154069.5 | 申请日: | 2016-12-14 |
公开(公告)号: | CN108228607B | 公开(公告)日: | 2021-10-15 |
发明(设计)人: | 郭鹏;孙允明 | 申请(专利权)人: | 中国航空工业集团公司西安航空计算技术研究所 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458 |
代理公司: | 中国航空专利中心 11008 | 代理人: | 杜永保 |
地址: | 710000 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 随着计算机和因特网技术的迅猛发展,从各种各样应用中收集到的数据量越来越庞大,从海量数据中挖掘出有价值的信息和知识已经成为数据挖掘研究领域中的重要任务之一。针对当前最大频繁项集挖掘方法挖掘效率不高的问题,提出一种基于连通度的最大频繁项集挖掘方法,扫描事务数据库生成有序的事务集并构造出ppc‑tree、根据事务数据库中项与项之间的连通度缩小最大频繁项集挖掘时的搜索空间、超集检测并生成最大频繁项集的集合。本方法在空间复杂度不增加的情况下,有效提升最大频繁项集的挖掘效率。 | ||
搜索关键词: | 基于 连通 最大 频繁 挖掘 方法 | ||
【主权项】:
1.一种基于连通度的最大频繁项集挖掘方法方法,其特征在于,包含以下步骤:步骤1:扫描事务数据库生成有序的事务集并构造出poc‑tree:1)扫描一遍事务数据库,得到事务数据库中的每一个项的支持度,将事务数据库中的所有项按照支持度的降序排列;然后,再将事务数据库中的事务按照上述降序重新排列得到一个新的有序的事务集;此事务集中的每一项都按照事务数据库中的每一项的支持度的降序排列;2)根据得到的新的事务集构造一棵ppc‑tree来表示原有的事务数据库,ppc‑tree的每一个分支都表示了事务数据库中的一个事务,一个分支中的父子结点则表示了其代表项的支持度的大小关系;步骤2:根据项与项之间的连通度缩小搜索空间:1)扫描数据库,得到事务数据库中的任意一项与其它项的连通度,将事务数据库中的项按照连通度从大到小的顺序排序;在最大频繁项集搜索过程中,可以根据项的连通度确定出该项一定不能加入已知的最大频繁项集或者该项可以加入已知的最大频繁项集,然后再用超集检测的方法确定加入了新项的集是否满足最大频繁项集的要求;2)当已知的最大频繁项集R的长度为N,另一个不属于R的项i的连通度若小于N,那么项集R∪{i}就一定不是最大频繁项集,所以在最大频繁项集的挖掘过程中不用考虑项集R∪{i};利用上述性质,可以大大减少最大频繁项集挖掘过程中需要考察的项集数量,提高了算法的效率;步骤3:超集检测并生成最大频繁项集的集合:上述过程可以避免搜索过程中,搜索那些根本不可能是最大频繁项集的顶集;最终生成的项集再使用超集检测的方法确定它是一个最大频繁项集;最后,生成的所有最大频繁项集的集合便是最大频繁项集挖掘的最终结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国航空工业集团公司西安航空计算技术研究所,未经中国航空工业集团公司西安航空计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611154069.5/,转载请声明来源钻瓜专利网。
- 上一篇:数据的写入方法及装置
- 下一篇:人物的推荐方法、系统及终端