[发明专利]一种基于邻接表的最大频繁项集挖掘方法在审
申请号: | 201811621148.1 | 申请日: | 2018-12-28 |
公开(公告)号: | CN109783536A | 公开(公告)日: | 2019-05-21 |
发明(设计)人: | 殷茗;王文杰;蒋丹;张煊宇;曹宏业;穆瑞;杨益;吴瑜 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/2455;G06F16/22 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 刘新琼 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于邻接表最大频繁项集挖掘方法,同时借助了邻接表和哈希表结合的存储方式,以减少数据库的扫描次数和遍历的空间规模,并可以尽早修剪掉小于支持度阈值的项集,避免生成较长最大频繁项集的所有非空子集。该方法充分利用建立的邻接表,只需对原数据库扫描一次,具有时间复杂度低,消耗内存等优点。 | ||
搜索关键词: | 邻接表 最大频繁项集 数据库 扫描 时间复杂度 存储方式 空间规模 挖掘 哈希表 支持度 遍历 修剪 内存 消耗 | ||
【主权项】:
1.一种基于邻接表的最大频繁项集挖掘方法,其特征在于步骤如下:步骤1:扫描数据库生成邻接表首先定义邻接表的图的存储结构HashMap<node_list,Edge>,设置node_list为存储头结点,Edge为存储邻接点的信息,边节点Edge的结构包括3个变量,一个是边的一个顶点的位置node,另一个是边的另一顶点的位置node,还有一个为边上的权值,即项的频繁度cost;然后对数据文件进行处理,先要存储文件路径并进行文件读取,在读取过程中需要对数据进行处理,要将每行数据去除空格后分割存入数组,通过调用邻接表的存储函数,将数组作为参数传入邻接表;最后在一次读取链接表中的项Xi,判断其中的顶点项是否含有Xi,若Xi∈node_list,则继续判断node[]中除去项Xi后的其余各项Xj≠i是否已存在于Edge中,如果已经存在,则边的权值cost自增1,否则cost值设置为1,并将Xj≠i添加到Edge中;若则直接将Xi添加到node_list中;步骤2:挖掘最大频繁项集首先,遍历邻接表的各顶点项Ai和对应邻接点项{Xi|Xi∈Edgei},如果Xi的权值cost即频繁度数,满足cost≥min_sup,则取Ai∪Xi形成2‑项频繁项集,否则剪去Xi,其中min_sup为最小支持度阈值;然后根据初始得到的2‑项频繁项集去置换顶点项Aj,即如果满足取该邻接点集合对应的头顶点Aj,令Ai∪Xi∪Aj便得到更高一维的频繁项集;以此类推,利用k‑项频繁项集去置换顶点项,取并集形成k+1项频繁项集,直到置换不出顶点,该方法结束,得到所有的最大频繁项集。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811621148.1/,转载请声明来源钻瓜专利网。