[发明专利]一种基于MapReduce的Map端数据的聚合方法有效
申请号: | 201610899802.X | 申请日: | 2016-10-14 |
公开(公告)号: | CN106484879B | 公开(公告)日: | 2019-08-06 |
发明(设计)人: | 郭方方;朱建文;吕宏武;王慧强;冯光升;刘慧姝 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/28 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150001 黑龙江省哈尔滨市南岗区*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: |
本发明提供的是一种基于MapReduce的Map端数据的聚合方法。包括测试阶段和聚合阶段。测试阶段,通过测试阶段来验证所使用Map端的Map函数中的算法是否适合进行内聚合。内聚合方法是在内存中Map函数的计算过程中进行的,计算完一部分后就进行聚合;外聚合方法是在Map函数将所有数据计算完存入磁盘后,再调入内存进行聚合。聚合阶段,若测试通过,使用内聚合方法对Map端计算后的数据进行聚合;若测试未通过,使用外聚合方法对Map端计算的后的数据进行聚合。本发明根据数据的特点,保证计算结果正确的前提下,选择相应的聚合方式,在减少I/O的访问次数的同时,减少传输 |
||
搜索关键词: | 一种 基于 mapreduce map 数据 聚合 方法 | ||
【主权项】:
1.一种基于MapReduce的Map端数据的聚合方法,其特征是:(1)分别通过外聚合和内聚合计算出相应的结果;(2)比较两个结果是否相同;(3)若相同则进行内聚合,若不相同则进行外聚合;所述内聚合具体包括:(3.1.1)建立<Key,Value>倒排索引:根据读入的<Key,Value>中Key值建立倒排索引,在索引中记录<Key,Address>,Address为<Key,Value>在内存中的地址值;(3.1.2)对Address建立指向Count的索引,对Address建立匹配次数Count的索引,进行匹配,将匹配成功的<Key,Value>进行合并;(3.1.3)在进行下次匹配之前,查看内存是否足够,如果内存不足够,将内存中Count值小的部分<Key,Value>写回磁盘;如果内存足够查看是否还有未计算的<Key,Value>,如果有未计算的<Key,Value>,将未计算的<Key,Value>调入内存进行计算并返回(3.1.1)继续执行;如果没有未计算的<Key,Value>则结束;所述外聚合具体包括:(3.2.1)将<Key,Value>调入内存进行计算,将计算结果写入磁盘,记为S<Key,Value>;(3.2.2)将磁盘中的S<Key,Value>重新调回内存,执行内聚合的操作。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610899802.X/,转载请声明来源钻瓜专利网。
- 上一篇:基于区间树的高效计数方法
- 下一篇:数据处理方法和装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置