[发明专利]一种基于大数据平台的频繁模式挖掘方法有效
申请号: | 201711384435.0 | 申请日: | 2017-12-20 |
公开(公告)号: | CN108197172B | 公开(公告)日: | 2021-06-22 |
发明(设计)人: | 刘君强;江波 | 申请(专利权)人: | 浙江工商大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 林松海 |
地址: | 310018 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据 平台 频繁 模式 挖掘 方法 | ||
1.一种基于大数据平台的频繁模式挖掘方法,其特征在于,根据事务数据库D、用户设置的最小支持度𝜎,快速地从D中发掘出频繁度不低于𝜎的模式,主要包括以下步骤:
(1)数据输入;
(2)统计频繁1-项集和2-项集;
(3)估算最大内存上限值SMUB,对搜索策略进行划分;
(4)混合挖掘;
(5) 数据输出;
其中所述步骤(2)和(4)中的宽度挖掘阶段的垂直数据格式采用混合数据格式,并采用基于快速失败机制的交叉计算优化方案提高计算速率,同时采用基于有序搜索树的快速剪枝方案避免资源浪费问题;所述步骤(3)中对搜索策略进行了划分,从单一搜索策略转入混合搜索,在所述步骤(4)中按照混合搜索策略执行混合挖掘任务,所述步骤(4)中进行混合挖掘时对宽度挖掘进行有效的缓存机制来降低中间输出量,同时对于深度挖掘采用均衡分组方案实现整个系统的负载均衡;
所述的混合搜索通过在挖掘过程中伺机选择搜索策略,通过宽度搜索的逐层搜索方式,减少数据维度,使部分共享一个父节点的项集可以转入深度挖掘,从而减少宽度搜索的层数,降低了宽度搜索挖掘时的I/O开销,解决深度搜索挖掘时的内存限制;具体步骤如下:
2.1、扫描事务数据库D第一遍,使用垂直数据格式保存每个频繁1-项集的信息,同时对其按照支持度的升序排序后得到一阶频繁模式的有序序列F,并输出;
2.2、通过对频繁1-项集的交集操作计算出频繁2-项集,在生成2-项集后,通过估算具有相同前缀的所有2-项集在一起做深度搜索挖掘可能需要的内存来判断这些2-项集是否适合转入深度挖掘,如果所需内存高于设定的阈值,则将继续宽度搜索;否则将会转入深度搜索;
2.3、对具有相同k阶前缀模式X的所有(k+1)阶模式组成的集合,称其为父节点为X的一组sibling,记为sibling({X}),
判断能否进行深度搜索是通过估算每组sibling在执行深度挖掘时可能所需的最大内存上限值SMUB,对于一组以k阶模式X为前缀的sibling({X})集合,按照公式1计算其做深度挖掘的内存上限值,
其中n表示该sibling中包含的模式个数,
所述的混合垂直数据格式是利用不同垂直数据格式之间的交集与差集的运算特点来保证垂直数据格式始终保持最小状态,降低内存消耗,同时利用基于快速失败机制的交叉计算优化方案来提高计算效率,在执行混合挖掘中由宽度搜索转换为深度搜索时,进行垂直数据格式到水平数据格式的转换操作,具体步骤如下:
3.1、在宽度搜索挖掘阶段时产生的模式及其垂直数据格式采用混合垂直数据格式mixset表示,其中mixset是对现有成果中的垂直数据格式tidset和diffset的最优选择,保证了每次生成的新的模式对应的垂直数据格式都是最小状态,降低了系统的内存消耗;
3.2、在通过两个垂直数据格式mixset,其大小分别为m和n, mixset的交集或是差集计算一个新的模式的垂直数据格式时,所需的时间复杂度为O(m+n),在计算过程中设置失败阈值来预测计算结果是否为所需的频繁模式,从而减少不必要的垃圾运算;
3.3、执行混合搜索策略中,从宽度搜索转换为深度搜索时,数据格式也应该从垂直数据格式转换为水平数据格式,进入在深度挖掘阶段,利用水平数据格式构建局部子数据库,进行快速的深度挖掘;
所述的快速剪枝方案是通过构建一棵有序搜索树,并同时采用完全剪枝技术与根据非频繁模式进行不完全地剪枝技术相结合进行剪枝,具体步骤如下:
4.1、将频繁(k-1)-项集压缩在一棵有序的搜索树中,因项集中各元素是有序的,且建树是同样按照该顺序进行插入节点,保证了这棵树始终是有序的,最后对候选k-项集在这棵树上进行遍历,寻找其对应的子集与该树的子路径的关系来判断该候选项集是否需要被剪枝;
4.2、对于频繁(k-1)-项集全部是由宽度挖掘得到的情况,在对候选k-项集进行剪枝时采用完全剪枝技术,此时有序搜索树中保存的是所有频繁(k-1)-项集,故只有在有序搜索树中找到了该候选项集的所有子集,才能保留次候选模式,否则剔除;
4.3、对于频繁(k-1)-项集是由混合挖掘阶段的宽度挖掘得到的情况,在对候选k-项集进行剪枝时采用根据非频繁模式进行不完全剪枝技术,此时有序搜索树中保存的是部分非频繁(k-1)-项集,只要在有序搜索树中找到了该候选项集的任一子集,就将其剔除,否则保留。
2.根据权利要求1所述的方法,其特征在于,所述的基于大数据平台采用有效的缓存机制和均衡分组方案,具体步骤如下:
在宽度搜索阶段,通过合理的设置缓存,降低大数据集群平台各节点之间的通信量以及各节点的I/O开销,在深度搜索阶段,对分发到各节点的数据进行均衡分组,实现集群中各节点之间的负载均衡。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工商大学,未经浙江工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711384435.0/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置