[发明专利]基于保序特征和前序编码树的频繁闭项集挖掘方法在审
申请号: | 201510185654.0 | 申请日: | 2015-04-20 |
公开(公告)号: | CN104765847A | 公开(公告)日: | 2015-07-08 |
发明(设计)人: | 尤涛;杜承烈;吴其蔓;钟冬;程书豪 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 王鲜凯 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 特征 编码 频繁 闭项集 挖掘 方法 | ||
技术领域
本发明涉及一种频繁闭项集挖掘方法,特别是涉及一种基于保序特征和前序编码树的频繁闭项集挖掘方法。
背景技术
“Lucchese C,Orlando S,Perego R.DCI Closed:A Fast and Memory Efficient Algorithm to Mine Frequent Closed Itemsets[C]//FIMI.2004.”文献中公开了一种频繁闭项集挖掘算法——DCI-Closed,在已知的频繁闭项集挖掘算法中,DCI-Closed算法是效率最高的,它提出了生成子保序的概念,并证明了每一个闭项集都存在惟一的保序生成子序列,从而实现了频繁项集构成的格的跳跃式搜索,提高了算法效率。为判断生成子是否保序,DCI-Closed算法引入了生成子“前序集(pre-set)”和“后序集(post-set)”的概念,对每个生成子,通过判断它的支持集与其前序集和后序集中每个元素的支持集的包含关系,来确定该生成子是否保序。但其候选项的生成过程十分原始低效,同时对于项集的频繁性判断过于繁琐。本发明利用前序编码树POC-Tree结构,同时通过项的节点集进行候选项的生成,对DCI-Closed算法进行优化,使其具有更高的挖掘效率,并且减少算法的计算复杂度,提高对频繁闭项集的挖掘效率。同时,近年来在对频繁闭项集的挖掘方面开展出了各类算法,主要有以下几类。
1999年,Pasquier等人提出了频繁闭项集的概念,并设计了基于Apriori算法的频繁闭项集挖掘算法A-Close算法,该算法采用自底向上、宽度优先的搜索策略,通过构造“生成子”集合,逐层求出所有频繁闭项集。尽管该算法利用了剪枝策略,可缩小搜索空间,但没有解决重复扫描数据库的问题。
以FP-Growth为基础,Pei、Wang等人先后提出了两种挖掘频繁闭项集的CLOSET算法和C LOSET+算法。CLOSET使用深度优先搜索策略,其困难是递归构造“条件FP-Tree”的CPU开销和存储开销很大。同时,CLOSET采用分割法处理大型数据集,检查局部频繁闭项集的全局闭性和频繁性的代价非常高。CLOSET+算法与CLOSET相似,但可根据不同的数据集来选择不同的策略,针对稀疏数据集提出了“向上检测”技术。FP-Close算法通过引入“FP-数组”,达到了更高的效率。
Zaki等人提出的CHARM算法对项集与事务标识集进行双向搜索,剪裁效率很高,其困难在于事务标识集存储开销非常大,且投影操作效率不高,对稠密或特别长的模式的数据集,CHARM算法的效率与可伸缩性都较差。CloseMiner是CHARM的变形,其主要思想是项集可进行不相交的聚类,每类都包含惟一个闭项集。
发明内容
为了克服现有频繁闭项集挖掘方法中候选项集生成效率低的不足,本发明提供一种基于保序特征和前序编码树的频繁闭项集挖掘方法。该方法采用基于前序编码树结构的方法产生候选项集,使得生成的过程更简单清晰,对于数据的储存也更为方便;在候选目标过滤阶段,利用前序编码树的特性与保序特征同时对候选项集进行频繁性与闭合性的判断,在判断过程中,对于不满足频繁性的候选项集无需进行闭合性的判断,方法简单,可以提高对频繁闭项集的挖掘效率。
本发明解决其技术问题所采用的技术方案是:一种基于保序特征和前序编码树的频繁闭项集挖掘方法,其特点是采用以下步骤:
(a)前序编码树POC-Tree:由NULL根节点和一组项集前缀子树组成;项集前缀子树的每个节点包括了五个特征:项集名,计数,孩子队列,前序,支持事务集。项集名表示该节点所表示的项集;计数表示所有能到达该节点的事务个数;孩子队列表示该节点的所有孩子;前序表示该节点的编号,支持事务集表示所有能到达该节点的事务集合。节点N的信息有前序、计数和支持事务集。具体生成步骤如下:
步骤一:扫描数据集,收集所有1-项集和它们的支持度计数,将支持度小于最小支持度的1-项集排除并按支持度降序排序,结果为频繁1-项集列表,同时将该频繁1-项集列表中每一个频繁1-项集的支持集记录在该频繁1-项集后面;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510185654.0/2.html,转载请声明来源钻瓜专利网。