[发明专利]一种基于Spark云计算平台的并行序列模式挖掘方法有效
申请号: | 201710482965.2 | 申请日: | 2017-06-22 |
公开(公告)号: | CN107346331B | 公开(公告)日: | 2019-08-20 |
发明(设计)人: | 余啸;刘进;吴思尧;崔晓晖;张建升;井溢洋 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F16/20 | 分类号: | G06F16/20;G06F16/23 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 魏波 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于Spark云计算平台的并行序列模式挖掘方法,针对现有的串行化序列模式挖掘算法在处理海量数据时计算能力低效的问题和现有的基于Hadoop的并行序列模式挖掘算法具有高IO开销和负载不平衡的问题,设计了合理的投影序列数据库切分策略,最大限度的解决了负载不平衡的问题。在此基础上根据MapReduce编程框架的特性,对原始PrefixSpan算法进行了并行化,利用Spark云计算平台的大规模并行计算能力提高了海量数据序列模式挖掘效率。本发明的技术方案具有简单、快速的特点,能够较好地提高序列模式挖掘的效率。 | ||
搜索关键词: | 一种 基于 spark 计算 平台 并行 序列 模式 挖掘 方法 | ||
【主权项】:
1.一种基于Spark云计算平台的并行序列模式挖掘方法,其特征在于:包括数据库切分、支持度计数和投影数据库生成三步骤,且三步迭代执行,直到没有新的序列模式产生为止;所述数据库切分,具体实现包括以下子步骤:步骤1.1:在第一次执行时,将原始数据库切分成相同大小的数据库分片,使每个数据库分片中的包含的序列个数近似相等;将数据库分片从HDFS中导入RDD中,接下来的所有MapReduce任务从RDD中读取数据库分片或生成的序列模式,并将该任务生成的投影数据库或序列模式存入RDD中;步骤1.2:在后续迭代执行时,将投影数据库切分成相同大小的数据库分片,使每个数据库分片中的包含的序列个数近似相等;将投影数据库分片存入RDD中,接下来的所有MapReduce任务从RDD中读取投影数据库分片或生成的序列模式,并将该任务生成的投影数据库或序列模式存入RDD中;所述支持度计数,利用一个MapReduce任务发现序列模式;其具体实现包括以下子步骤:步骤2.1:在第一次执行时,调用第一个flatMap函数从序列数据库片段中读取每条序列,其中序列以<LongWritable偏移量, Text 序列>键值对的形式存储;调用另一个flatMap函数将序列切分为项,产生<项,1>键值对;拥有相同键的键值对被合并传递给Reduce节点,Reduce节点调用ReducebyKey()函数计算<项,1>键值对的支持度,输出支持度大于等于设定的最小支持度的键值对;这些键值对的键即为1‑序列模式,值即为该1‑序列模式的支持度计数;删除原始序列数据库中的非1‑序列模式,形成新的序列数据库,后续的MapReduce任务都基于此新的序列数据库进行操作;步骤2.2:在后续迭代执行时,每一个Map节点首先调用flatMap函数从投影数据库片段Si|α中读取每一行后缀序列,然后再调用另一个flatMap函数将后缀序列中的第一项切分出来,将这一项b加入到前缀α后产生<α+b, 1>键值对;拥有相同键的键值对被合并传递给Reduce节点;最后每一个Reduce节点调用ReducebyKey()函数计算<α+b, 1>键值对的支持度,输出支持度大于等于设定的最小支持度的键值对;所述投影数据库生成,利用一个MapReduce任务为每个在支持度计数步中产生的序列模式生成相应的投影数据库;其具体实现包括以下子步骤:步骤3.1:每个Map节点调用flatMap() 函数读取在之前的以α为前缀的投影数据库中的后缀序列;步骤3.2:每个map函数计算前缀α¢的后缀,以α为前缀的投影数据库中的后缀序列中第一次出现前缀α¢的后缀即为α¢的后缀;其中α¢是以α为前缀的序列模式;步骤3.3:将Map节点产生的键值对传递给Reduce节点,Reduce节点对这些键值对不做任何的处理,生成最终的投影数据库。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710482965.2/,转载请声明来源钻瓜专利网。
- 上一篇:数据比对方法及装置
- 下一篇:一种图像处理方法以及移动终端