[发明专利]一种基于邻接表的最大频繁项集挖掘方法在审

专利信息
申请号: 201811621148.1 申请日: 2018-12-28
公开(公告)号: CN109783536A 公开(公告)日: 2019-05-21
发明(设计)人: 殷茗;王文杰;蒋丹;张煊宇;曹宏业;穆瑞;杨益;吴瑜 申请(专利权)人: 西北工业大学
主分类号: G06F16/2458 分类号: G06F16/2458;G06F16/2455;G06F16/22
代理公司: 西北工业大学专利中心 61204 代理人: 刘新琼
地址: 710072 *** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种基于邻接表最大频繁项集挖掘方法,同时借助了邻接表和哈希表结合的存储方式,以减少数据库的扫描次数和遍历的空间规模,并可以尽早修剪掉小于支持度阈值的项集,避免生成较长最大频繁项集的所有非空子集。该方法充分利用建立的邻接表,只需对原数据库扫描一次,具有时间复杂度低,消耗内存等优点。
搜索关键词: 邻接表 最大频繁项集 数据库 扫描 时间复杂度 存储方式 空间规模 挖掘 哈希表 支持度 遍历 修剪 内存 消耗
【主权项】:
1.一种基于邻接表的最大频繁项集挖掘方法,其特征在于步骤如下:步骤1:扫描数据库生成邻接表首先定义邻接表的图的存储结构HashMap<node_list,Edge>,设置node_list为存储头结点,Edge为存储邻接点的信息,边节点Edge的结构包括3个变量,一个是边的一个顶点的位置node,另一个是边的另一顶点的位置node,还有一个为边上的权值,即项的频繁度cost;然后对数据文件进行处理,先要存储文件路径并进行文件读取,在读取过程中需要对数据进行处理,要将每行数据去除空格后分割存入数组,通过调用邻接表的存储函数,将数组作为参数传入邻接表;最后在一次读取链接表中的项Xi,判断其中的顶点项是否含有Xi,若Xi∈node_list,则继续判断node[]中除去项Xi后的其余各项Xj≠i是否已存在于Edge中,如果已经存在,则边的权值cost自增1,否则cost值设置为1,并将Xj≠i添加到Edge中;若则直接将Xi添加到node_list中;步骤2:挖掘最大频繁项集首先,遍历邻接表的各顶点项Ai和对应邻接点项{Xi|Xi∈Edgei},如果Xi的权值cost即频繁度数,满足cost≥min_sup,则取Ai∪Xi形成2‑项频繁项集,否则剪去Xi,其中min_sup为最小支持度阈值;然后根据初始得到的2‑项频繁项集去置换顶点项Aj,即如果满足取该邻接点集合对应的头顶点Aj,令Ai∪Xi∪Aj便得到更高一维的频繁项集;以此类推,利用k‑项频繁项集去置换顶点项,取并集形成k+1项频繁项集,直到置换不出顶点,该方法结束,得到所有的最大频繁项集。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201811621148.1/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top