[发明专利]一种基于大数据平台的频繁模式挖掘方法有效

专利信息
申请号: 201711384435.0 申请日: 2017-12-20
公开(公告)号: CN108197172B 公开(公告)日: 2021-06-22
发明(设计)人: 刘君强;江波 申请(专利权)人: 浙江工商大学
主分类号: G06F16/2458 分类号: G06F16/2458
代理公司: 杭州求是专利事务所有限公司 33200 代理人: 林松海
地址: 310018 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 数据 平台 频繁 模式 挖掘 方法
【权利要求书】:

1.一种基于大数据平台的频繁模式挖掘方法,其特征在于,根据事务数据库D、用户设置的最小支持度𝜎,快速地从D中发掘出频繁度不低于𝜎的模式,主要包括以下步骤:

(1)数据输入;

(2)统计频繁1-项集和2-项集;

(3)估算最大内存上限值SMUB,对搜索策略进行划分;

(4)混合挖掘;

(5) 数据输出;

其中所述步骤(2)和(4)中的宽度挖掘阶段的垂直数据格式采用混合数据格式,并采用基于快速失败机制的交叉计算优化方案提高计算速率,同时采用基于有序搜索树的快速剪枝方案避免资源浪费问题;所述步骤(3)中对搜索策略进行了划分,从单一搜索策略转入混合搜索,在所述步骤(4)中按照混合搜索策略执行混合挖掘任务,所述步骤(4)中进行混合挖掘时对宽度挖掘进行有效的缓存机制来降低中间输出量,同时对于深度挖掘采用均衡分组方案实现整个系统的负载均衡;

所述的混合搜索通过在挖掘过程中伺机选择搜索策略,通过宽度搜索的逐层搜索方式,减少数据维度,使部分共享一个父节点的项集可以转入深度挖掘,从而减少宽度搜索的层数,降低了宽度搜索挖掘时的I/O开销,解决深度搜索挖掘时的内存限制;具体步骤如下:

2.1、扫描事务数据库D第一遍,使用垂直数据格式保存每个频繁1-项集的信息,同时对其按照支持度的升序排序后得到一阶频繁模式的有序序列F,并输出;

2.2、通过对频繁1-项集的交集操作计算出频繁2-项集,在生成2-项集后,通过估算具有相同前缀的所有2-项集在一起做深度搜索挖掘可能需要的内存来判断这些2-项集是否适合转入深度挖掘,如果所需内存高于设定的阈值,则将继续宽度搜索;否则将会转入深度搜索;

2.3、对具有相同k阶前缀模式X的所有(k+1)阶模式组成的集合,称其为父节点为X的一组sibling,记为sibling({X}),

判断能否进行深度搜索是通过估算每组sibling在执行深度挖掘时可能所需的最大内存上限值SMUB,对于一组以k阶模式X为前缀的sibling({X})集合,按照公式1计算其做深度挖掘的内存上限值,

其中n表示该sibling中包含的模式个数,l表示模式个数,p表示一个项目在内存中所占的字节数,q为其所有模式对应的垂直数据格式所含元素之和;

所述的混合垂直数据格式是利用不同垂直数据格式之间的交集与差集的运算特点来保证垂直数据格式始终保持最小状态,降低内存消耗,同时利用基于快速失败机制的交叉计算优化方案来提高计算效率,在执行混合挖掘中由宽度搜索转换为深度搜索时,进行垂直数据格式到水平数据格式的转换操作,具体步骤如下:

3.1、在宽度搜索挖掘阶段时产生的模式及其垂直数据格式采用混合垂直数据格式mixset表示,其中mixset是对现有成果中的垂直数据格式tidset和diffset的最优选择,保证了每次生成的新的模式对应的垂直数据格式都是最小状态,降低了系统的内存消耗;

3.2、在通过两个垂直数据格式mixset,其大小分别为m和n, mixset的交集或是差集计算一个新的模式的垂直数据格式时,所需的时间复杂度为O(m+n),在计算过程中设置失败阈值来预测计算结果是否为所需的频繁模式,从而减少不必要的垃圾运算;

3.3、执行混合搜索策略中,从宽度搜索转换为深度搜索时,数据格式也应该从垂直数据格式转换为水平数据格式,进入在深度挖掘阶段,利用水平数据格式构建局部子数据库,进行快速的深度挖掘;

所述的快速剪枝方案是通过构建一棵有序搜索树,并同时采用完全剪枝技术与根据非频繁模式进行不完全地剪枝技术相结合进行剪枝,具体步骤如下:

4.1、将频繁(k-1)-项集压缩在一棵有序的搜索树中,因项集中各元素是有序的,且建树是同样按照该顺序进行插入节点,保证了这棵树始终是有序的,最后对候选k-项集在这棵树上进行遍历,寻找其对应的子集与该树的子路径的关系来判断该候选项集是否需要被剪枝;

4.2、对于频繁(k-1)-项集全部是由宽度挖掘得到的情况,在对候选k-项集进行剪枝时采用完全剪枝技术,此时有序搜索树中保存的是所有频繁(k-1)-项集,故只有在有序搜索树中找到了该候选项集的所有子集,才能保留次候选模式,否则剔除;

4.3、对于频繁(k-1)-项集是由混合挖掘阶段的宽度挖掘得到的情况,在对候选k-项集进行剪枝时采用根据非频繁模式进行不完全剪枝技术,此时有序搜索树中保存的是部分非频繁(k-1)-项集,只要在有序搜索树中找到了该候选项集的任一子集,就将其剔除,否则保留。

2.根据权利要求1所述的方法,其特征在于,所述的基于大数据平台采用有效的缓存机制和均衡分组方案,具体步骤如下:

在宽度搜索阶段,通过合理的设置缓存,降低大数据集群平台各节点之间的通信量以及各节点的I/O开销,在深度搜索阶段,对分发到各节点的数据进行均衡分组,实现集群中各节点之间的负载均衡。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工商大学,未经浙江工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711384435.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top