[发明专利]基于连通度的最大频繁项集挖掘方法有效
申请号: | 201611154069.5 | 申请日: | 2016-12-14 |
公开(公告)号: | CN108228607B | 公开(公告)日: | 2021-10-15 |
发明(设计)人: | 郭鹏;孙允明 | 申请(专利权)人: | 中国航空工业集团公司西安航空计算技术研究所 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458 |
代理公司: | 中国航空专利中心 11008 | 代理人: | 杜永保 |
地址: | 710000 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 连通 最大 频繁 挖掘 方法 | ||
随着计算机和因特网技术的迅猛发展,从各种各样应用中收集到的数据量越来越庞大,从海量数据中挖掘出有价值的信息和知识已经成为数据挖掘研究领域中的重要任务之一。针对当前最大频繁项集挖掘方法挖掘效率不高的问题,提出一种基于连通度的最大频繁项集挖掘方法,扫描事务数据库生成有序的事务集并构造出ppc‑tree、根据事务数据库中项与项之间的连通度缩小最大频繁项集挖掘时的搜索空间、超集检测并生成最大频繁项集的集合。本方法在空间复杂度不增加的情况下,有效提升最大频繁项集的挖掘效率。
技术领域
本发明涉及一种数据挖掘方法,更特别地说,是一种基于连通度的最大频繁项集挖掘方法
背景技术
近年来开展了最大频繁项集挖掘的各类算法,虽然在数据组织、处理流程等方面各有不同,但主要分为两类,如表1所示。
产生候选集的典型算法为Aprioror,该类算法以产生候选集为基础,再通过扫描数据库排除不满足最小支持度的项集来搜索最大频繁项集。
不产生候选集的算法有基于FP-tree有效挖掘最大频繁项集的算法,该类算法主要以FP-tree、ppc-tree、poc-tree为基础,通过结点支持列表的方法来搜索最大频繁项集。
基于层次的典型算法有基于层次的最大频繁项集挖掘算法,该类算法将数据库按照大小分为不同的层次来加速搜索最大频繁项集的过程。
表1典型最大频繁项集挖掘算法比较
类别 产生候选集 遍历数据库 1 产生 多次 2 不产生 一次 3 产生 次
从上述最大频繁项集挖掘算法的发展不难看出,最大频繁项集的产生方式主要分为产生候选集和不产生候选集两大类。前者主要是基于Aproior算法做出了一些改进,设法避免产生重复的候选集或者加快候选集的产生;后者主要是基于FP-tree算法做出了相关的改进。其中增加结点上保存的相关信息可以提高算法的效率,基于ppc-tree的算法增加了结点在数据库中的前后关系,而基于poc-tree的算法则在基于ppc-tree的算法上只保留前序关系或者后序关系,减少了一半的空间代价。在最大频繁项集挖掘算法研究不断发展中,算法的效率是在不断地提高,但依然有进一步提高的空间。
发明内容
1.本发明的目的:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国航空工业集团公司西安航空计算技术研究所,未经中国航空工业集团公司西安航空计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611154069.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据的写入方法及装置
- 下一篇:人物的推荐方法、系统及终端