[发明专利]一种基于Spark云计算平台的并行序列模式挖掘方法有效
申请号: | 201710482965.2 | 申请日: | 2017-06-22 |
公开(公告)号: | CN107346331B | 公开(公告)日: | 2019-08-20 |
发明(设计)人: | 余啸;刘进;吴思尧;崔晓晖;张建升;井溢洋 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F16/20 | 分类号: | G06F16/20;G06F16/23 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 魏波 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 spark 计算 平台 并行 序列 模式 挖掘 方法 | ||
本发明公开了一种基于Spark云计算平台的并行序列模式挖掘方法,针对现有的串行化序列模式挖掘算法在处理海量数据时计算能力低效的问题和现有的基于Hadoop的并行序列模式挖掘算法具有高IO开销和负载不平衡的问题,设计了合理的投影序列数据库切分策略,最大限度的解决了负载不平衡的问题。在此基础上根据MapReduce编程框架的特性,对原始PrefixSpan算法进行了并行化,利用Spark云计算平台的大规模并行计算能力提高了海量数据序列模式挖掘效率。本发明的技术方案具有简单、快速的特点,能够较好地提高序列模式挖掘的效率。
技术领域
本发明属于序列模式挖掘技术领域,特别涉及一种基于Spark云计算平台的并行序列模式挖掘方法。
背景技术
(1)序列模式挖掘技术
[文献1]最早提出序列模式挖掘的概念。序列模式挖掘就是挖掘序列数据库中频繁出现的有序事件或子序列。序列模式挖掘作为数据挖掘研究领域中重要的研究内容之一,有着很广泛的应用需求,比如用户购买行为分析、生物序列分析、出租车频繁轨迹模式发现、人类移动行为模式分析。以下是序列模式挖掘中的一些术语的定义。
定义1:对于一个集合I={ik,k=1,2,…,m}是一个包含m个不同项的集合,称一个子集为一个项集。
定义2:序列是由多个项集组成的集合,记为S=<s1,s2,…,sn>,其中某个具体的序列的长度等于序列包含项的数目。假定某个序列的长度为l,则称此序列是l-序列。
定义3:序列数据库由<Sid,S>组成,其中第一列Sid表示序列号,第二列S表示序列的具体组成项集,每行表示一条序列记录。
定义4:对于序列S支持度定义为序列S在全局序列数据库中出现的次数。已知最小支持度,如果序列S的支持度不低于最小支持度,那么序列S就是序列模式。长度为l的序列模式称为l-序列模式。
定义5:给定两个序列α=<a1,a2,..an>,β=<b1,b2,…bm>(m≤n),β被称为α的前缀当且仅当或am-bm=Φ.序列γ=<am-bm,am+1,…,an>被称为α相对于β的后缀。
定义6:α是序列数据库D中的一个序列模式,α的投影数据库是以α为前缀的所有后缀的集合,记为S|α。
[文献2]提出了采用冗余候选模式的剪除策略和哈希树来实现候选模式快速访存的GSP算法。[文献3]提出了基于垂直数据表示的SPADE算法。[文献4]提出了基于投影数据库的PrefixSpan算法。这些传统的串行化算法虽然随着数据结构的优化和挖掘机制的改变,在性能上有一定提高,但在面对大规模数据集时算法的处理速度往往达不到人们的要求。直到20世纪初,计算机硬件的急速发展极大的推动了并行序列模式挖掘算法的研究。国内外学者相继提出了各种分布式序列模式挖掘算法。
[文献5]提出了基于树投影技术的两种不同的并行化算法来解决分布内存并行计算机的序列模式发现问题。[文献6]提出了通过语法序列树减少数据传输量的DMGSP算法。[文献7]提出了快速挖掘全局最大频繁项目集的FMGSP算法。但是由于分布式内存系统或网格计算系统这些并行平台并未提供容错机制,所以在这些并行平台上面实现的并行序列模式挖掘算法不具备容错性。此外,在这些平台上开发并行算法需要程序员具备大量的并行算法开发经验。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710482965.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据比对方法及装置
- 下一篇:一种图像处理方法以及移动终端