[发明专利]改进的FP‑GROWTH方法在审
申请号: | 201710450160.X | 申请日: | 2017-06-15 |
公开(公告)号: | CN107301217A | 公开(公告)日: | 2017-10-27 |
发明(设计)人: | 黄杰;卫锦;朱仟;曹山山;闵溪青;万弃寒;张云龙 | 申请(专利权)人: | 东南大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京众联专利代理有限公司32206 | 代理人: | 叶涓涓 |
地址: | 210096 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 改进 fp growth 方法 | ||
技术领域
本发明属于数据挖掘分析技术领域,涉及数据关联分析方法,更为具体的说,是涉及一种改进的FP-GROWTH方法。
背景技术
关联分析又称关联挖掘,是指在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。在实际应用中,关联分析能够用于发现交易数据库中不同商品(项)之间的联系,例如常见的购物篮分析。
关联分析适用性广泛,为了挖掘数据库中数据的关联关系,常用的方法有Apriori方法。Apriori方法主要是根据数据库中具有最小支持度的数据集生成关联规则。但其缺陷也很明显,计算机系统的开销会随着数据库的记录的增加呈现出几何级数的增加,这就造成了计算效率的低下。而FP-GROWTH方法能够很好地解决这个问题。
FP-GROWTH方法通过扫描2次数据库形成频繁模式树,由此得到压缩的数据库映射,再根据得到的频繁模式树进行关联分析。GROWTH算法相比于Apriori算法有更强的适用性和更高的计算效率,但在某些数据的应用中尚有缺陷。例如航空数据数据量大重复率低,传统FP-GROWTH算法建立FP-TREE效率低下,速度慢,无法令人满意。虽然有学者针对FP-GROWTH算法的不足提出了很多改进算法,但是这些改进算法并不能满足航空领域数据分析的需求,不能反映航空领域数据的特点,处理效率也不能满足需求。因此,如何使得FP-GROWTH算法能够更好地适应航空领域数据分析需求、提升效率,成为亟待解决的问题。
发明内容
针对FP-GROWTH算法中,由于航空数据数据量大重复率低特点,导致的传统FP-GROWTH算法建立FP-TREE效率低和速度慢的问题,本发明设计了一种改进的FP-GROWTH方法,能够显著提高FP-GROWTH算法的运行效率。
为了达到上述目的,本发明提供如下技术方案:
改进的FP-GROWTH方法,包括如下步骤:
步骤1,对数据库遍历,获取每个项的支持度,按顺序排列支持度得到list,根据list对数据库中的事务排序;
步骤2,根据得到的list,将数据库中的事务插入到一个FP-TREE中;
步骤3,运用Bloomfilter判断当前节点的子节点是否存在当前项,如果当前项存在于当前节点的子节点中,则寻找到该节点进行插入;如果当前项不存在于当前节点的子节点中,则产生一个新的节点进行插入;
步骤4,挖掘数据库中各项之间的关联关系。
进一步的,步骤1具体包括如下步骤:
步骤11,扫描一遍数据集,计算每个项的支持度;
步骤12,按照最小支持度删除不符合要求的项;
步骤13,按照支持度的逆序排列,排列结果即为list;
步骤14,将数据库中的各个事务按照list重新排列。
进一步的,步骤2具体包括:
步骤21,将当前事务的当前项插入当前节点的子节点中,对于第一次插入则当前节点为NULL节点;如果当前节点的子节点存在当前项,则将该子节点的支持度加1,如果不存在,则创建一个新的节点,新节点支持度为1;
步骤22,将当前节点移动到该子节点或新节点;
步骤23,将当前事务中的当前项移动到下一项,重复步骤21至步骤23;如果当前事务中的当前项没有下一项则移动到下一事务,重复步骤21至步骤23,如果没有下一事务则完成FP-TREE的建立。
进一步的,步骤3中Bloomfilter的判断过程如下:
计算数据集X中每一个字符串的k个hash值,然后将k个hash值插入到位数组V中,将要查询的事务分别计算k个hash值,模拟插入步骤,建立一个新的位数组V′,将与V进行对比,如果相同则说明要查询的事务在原事务集中。
进一步的,插入规则为,如果对应位的值为0,hash值为1,则将位数组中对应位置变为1,如果位数组中对应位置已经为1,则不作变动。
进一步的,步骤4具体包括如下步骤:
步骤41,按照list的逆序选择第一个节点N1,将包含N1的路径保存,删除其余的节点路径,并更新FP-TREE中的支持度,生成条件模式树;
步骤42,按照list的逆序寻找N1的下一个节点N2,根据新树中的支持度删除不频繁项;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710450160.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:铜板包装打包方法
- 下一篇:一种非相关文献隐性关联知识发现方法