[发明专利]一种基于大数据平台的频繁模式挖掘方法有效
申请号: | 201711384435.0 | 申请日: | 2017-12-20 |
公开(公告)号: | CN108197172B | 公开(公告)日: | 2021-06-22 |
发明(设计)人: | 刘君强;江波 | 申请(专利权)人: | 浙江工商大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 林松海 |
地址: | 310018 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于大数据平台的频繁模式挖掘方法。它利用大数据平台从海量数据中发现满足用户需求的频繁模式,一是采用混合的搜索策略,将宽度优先搜索和深度优先搜索相结合,实现混合挖掘,二是采用混合垂直数据格式来表示数据,充分利用交集与差集的运算特点保证垂直数据格式始终保持最小状态,同时实现水平数据格式与垂直数据格式的相互转换,并采用了基于快速失败机制的交叉计算优化方案提高计算效率,三是在宽度优先搜索挖掘阶段采用基于有序搜索树的快速剪枝策略,提高剪枝效率,四是结合大数据平台的特性,进行有效地缓存和均衡分组,实现整个系统负载均衡。 | ||
搜索关键词: | 一种 基于 数据 平台 频繁 模式 挖掘 方法 | ||
【主权项】:
1.一种基于大数据平台的频繁模式挖掘方法,其特征在于,根据事务数据库D、用户设置的最小支持度ð,快速地从D中发掘出频繁度不低于ð的模式,主要包括以下步骤:(1)数据输入;(2)统计频繁1‑项集和2‑项集;(3)估算最大内存上限值SMUB,对搜索策略进行划分;(4)混合挖掘;(5) 数据输出;其中所述步骤(2)和(4)中的宽度挖掘阶段的垂直数据格式采用混合数据格式,并采用基于快速失败机制的交叉计算优化方案提高计算速率,同时采用基于有序搜索树的快速剪枝方案避免资源浪费问题;所述步骤(3)中对搜索策略进行了划分,从单一搜索策略转入混合搜索,在所述步骤(4)中按照混合搜索策略执行混合挖掘任务,所述步骤(4)中进行混合挖掘时对宽度挖掘进行有效的缓存机制来降低中间输出量,同时对于深度挖掘采用均衡分组方案实现整个系统
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工商大学,未经浙江工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711384435.0/,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置