[发明专利]一种基于邻接表的最大频繁项集挖掘方法在审
申请号: | 201811621148.1 | 申请日: | 2018-12-28 |
公开(公告)号: | CN109783536A | 公开(公告)日: | 2019-05-21 |
发明(设计)人: | 殷茗;王文杰;蒋丹;张煊宇;曹宏业;穆瑞;杨益;吴瑜 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/2455;G06F16/22 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 刘新琼 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 邻接表 最大频繁项集 数据库 扫描 时间复杂度 存储方式 空间规模 挖掘 哈希表 支持度 遍历 修剪 内存 消耗 | ||
本发明涉及一种基于邻接表最大频繁项集挖掘方法,同时借助了邻接表和哈希表结合的存储方式,以减少数据库的扫描次数和遍历的空间规模,并可以尽早修剪掉小于支持度阈值的项集,避免生成较长最大频繁项集的所有非空子集。该方法充分利用建立的邻接表,只需对原数据库扫描一次,具有时间复杂度低,消耗内存等优点。
技术领域
最大频繁项集挖掘是许多数据挖掘应用中的重要问题,本发明涉及基于邻接表的最大频繁项集挖掘技术,在研究最大频繁项集挖掘的过程中,考虑到应用邻接表作为数据存储载体进行数据储存以备后面的最大频繁项集挖掘。该技术可以应用在很多领域,包括卫生保健领域、教育领域、制造领域等等,还可以用在日常的客户关系挖掘管理、诈骗入侵分析以及网购购物分析等多个方面,具有非常大的应用范围和市场潜力。
背景技术
数据挖掘是从大量的数据中提取潜在,未知以及不易被人直观发现,且最终可以表示为可理解的知识的过程。关联规则挖掘就是数据挖掘研究的重要内容之一,旨在发掘数据中组成数据集的不同项之间的内在关联关系。它由两部分组成,第一部分挖掘所有项的最大频繁项集,第二部分用最大频繁项集产生所有满足给的最小置信度的关联规则,其中最重要的是最大频繁项的挖掘,它决定规则挖掘的整体性能。其在个性化推荐系统、风险分析、医疗以及食品安全等领域有广泛的应用前景。
在最大频繁项集挖掘算法中,最著名的便是Apriori算法。该算法虽然思路和结构简单,没有复杂的推导,在频繁项集挖掘的过程中,以递归统计为基础不断修剪生成频繁项集,另外利用本身性质而产生候选集的方法在许多情况下缩小了检查的候选规模,使算法效率有一定的提高。但在产生最大频繁项集的过程中,需要产生、处理和保存大量的候选集和多次扫描数据库,占用大量的内存空间和系统时间,难以适应海量和稠密数据的挖掘。
针对Apriori算法的缺陷,有学者提出了基于频繁模式树(FP-Tree)产生最大频繁项集的FP-Growth算法。该算法将事务数据集压缩到FP-Tree中,用FP-Tree映射存储项目的关联信息,最后对该树多次递归遍历产生最大频繁项集。该算法不需要产生大量的候选项,仅需要遍历数据库两次生成FP-Tree,对FP-Tree进行递归挖掘便可产生最大频繁项集,减少了数据库的遍历次数。但它需要创建一个包含所有数据集项的 FP-Tree,需要占用大量内存,内存消耗与FP-Tree宽度和深度成比例。深度一般是单个事务所有项目数量的最大值,如果数据库中的频繁1-项集数量很大,且内存不能装载所有项目在FP-Tree的映射信息,该算法将不能有效的工作。并且两次扫描数据库,生成和多次递归FP-Tree也使得该算法的空间和时间性能不高。
本发明提出了一种基于邻接表最大频繁项集挖掘方法,同时借助了邻接表和哈希表结合的存储方式,以减少数据库的扫描次数和遍历的空间规模,并可以尽早修剪掉小于支持度阈值的项集,避免生成较长最大频繁项集的所有非空子集。该方法充分利用建立的邻接表,只需对原数据库扫描一次,具有时间复杂度低,消耗内存等优点。
发明内容
要解决的技术问题
为了解决在最大频繁项集挖掘过程中,需要产生、处理和保存大量的候选集和多次扫描数据库,占用大量的内存空间和系统时间,难以适应海量和稠密数据的挖掘。本发明提出一种基于邻接表的最大频繁项集挖掘方法。
技术方案
一种基于邻接表的最大频繁项集挖掘方法,其特征在于步骤如下:
步骤1:扫描数据库生成邻接表
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811621148.1/2.html,转载请声明来源钻瓜专利网。