[发明专利]一种基于映射-归约计算模型的洗牌数据缓存方法有效
申请号: | 201610712705.5 | 申请日: | 2016-08-24 |
公开(公告)号: | CN106371919B | 公开(公告)日: | 2019-07-16 |
发明(设计)人: | 付周望;王一丁;戚正伟;管海兵 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06F11/07 |
代理公司: | 上海恒慧知识产权代理事务所(特殊普通合伙) 31317 | 代理人: | 张宁展 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于映射‑归约计算模型的洗牌数据缓存方法,包括映射‑归约计算框架将一个映射‑归约工作按任务为单位的划分通过接口发送到洗牌缓存主机,洗牌缓存主机接收到任务划分数据后,加上时间戳保存在本地内存中;洗牌缓存主机对任务划分数据采用随机算法将其中的归约任务与集群的各个节点做一个一对三的映射,并以哈希表的形式保存在洗牌缓存主机的内存中等步骤。本发明能够提升基于映射‑归约模型的分布式计算框架的计算性能,避免低效的用户手动设置检查点,提升分布式计算框架的鲁棒性。 | ||
搜索关键词: | 一种 基于 映射 计算 模型 洗牌 数据 缓存 方法 | ||
【主权项】:
1.一种基于映射‑归约计算模型的洗牌数据缓存方法,其特征在于,该方法包括如下步骤:步骤1:映射‑归约计算框架将一个映射‑归约工作按任务为单位的划分通过接口发送到洗牌缓存主机,洗牌缓存主机接收到任务划分数据后,加上时间戳保存在本地内存中;步骤2:洗牌缓存主机对任务划分数据采用随机算法将其中的归约任务与集群的各个节点做一个一对三的映射,并以哈希表的形式保存在洗牌缓存主机的内存中,一个归约任务对应随机三个节点,其中一个为主要节点,剩下两个为备份节点;步骤3:计算框架调度其中一个节点执行一个映射任务,该节点执行完映射任务后,通过调用缓存系统的接口将该映射任务的洗牌数据发送至本地洗牌缓存执行器进程的内存空间,同时返回,表示任务执行完成;步骤4:当一个节点上的缓存系统的执行器进程收到映射任务的洗牌数据时,按照洗牌数据默认的划分方式,将数据按照归约任务划分成多个洗牌归约数据块,保存在内存中;步骤5:本地洗牌缓存执行器向洗牌缓存主机请求归约任务与节点的映射表,并根据洗牌缓存主机的归约任务与节点的映射表,将步骤4中划分完毕的洗牌归约数据块分发到与之对应的三个归约任务远程节点,并按照步骤2中主要节点和备份节点的设置分别给数据块加上主备份和从备份的标签;步骤6:远程节点收到洗牌归约数据块时读取该数据块的标签,如果该标签显示为主备份则将其保存在内存中,如果该标签显示为从备份则将其写入硬盘;如果此时主备份节点的内存空间不足,则会触发洗牌缓存系统的洗牌数据剔除步骤;同时进入步骤7;步骤7:重复步骤3到步骤6的过程,直到该工作的所有映射任务执行完毕,进入步骤8;步骤8:计算框架在调度前通过洗牌缓存系统的接口查询所有归约任务的分布情况;步骤9:计算框架根据归约任务的分布情况调度归约任务:首先选取其中的主备份节点,将一个归约任务分发到该节点上,如果主备份节点失效,进入步骤10,否则进入步骤11;步骤10:计算框架选择从备份节点,将归约任务发送到该节点上,如果两个从备份节点同时失效,则该任务失败,抛出错误,终止所有步骤;步骤11:归约任务在节点上执行时,通过接口向本地洗牌缓存执行器获取数据;步骤12:本地洗牌缓存执行器接收到请求后,首先检查数据是否在内存中,如在内存中则直接向该任务返回对应数据,否则去磁盘获取对应的数据并返回;步骤13:归约任务收到数据后开始计算;步骤14:重复步骤9至步骤13直到所有归约任务执行完毕,映射‑归约工作结束。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610712705.5/,转载请声明来源钻瓜专利网。
- 上一篇:任务集群调度管理方法及装置
- 下一篇:一种避免内存地址冲突的方法及装置