[发明专利]一种基于非易失内存的分布式计算方法、系统及存储介质在审
申请号: | 202110550478.1 | 申请日: | 2021-05-20 |
公开(公告)号: | CN113342266A | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 蒋信;刘瑞盛;喻涛 | 申请(专利权)人: | 普赛微科技(杭州)有限公司 |
主分类号: | G06F3/06 | 分类号: | G06F3/06;G06F16/172;G06F16/182 |
代理公司: | 广州市越秀区哲力专利商标事务所(普通合伙) 44288 | 代理人: | 戴文仪 |
地址: | 310000 浙江省杭州市临安区*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 非易失 内存 分布式 计算方法 系统 存储 介质 | ||
本发明公开了一种基于非易失内存的分布式计算方法、系统及存储介质,其中计算方法包括步骤S1:获取初始数据,对初始数据进行预处理;步骤S2:将预处理后的数据分配至多个并行的映射节点进行处理,并将处理所得的中间结果存储于非易失存储器中;步骤S3:从所述非易失存储器中领取中间结果,并将其输入归约节点中进行归约运算,以输出最终结果。本发明能够在计算机宕机的情况下保持MapReduce计算过程中保存在非易失存储器中的计算中间结果不发生丢失,从而提高系统的效率和可靠性。
技术领域
本发明涉及分布式文件系统技术领域,尤其涉及一种基于非易失内存的分布式计算方法、系统及存储介质。
背景技术
大数据是信息产业发展的最重要的技术方向之一。随着海量数据的产生,传统的集中式计算及存储系统难以满足对大数据存储和处理的要求,分布式存储和计算系统得到了广泛的应用。Hadoop软件是目前应用较广的开源的分布式计算框架,能够部署在大规模分布式的计算平台上,成本较低,可支持多种编程语言,跨平台的兼容性强,具备高扩展性、高效性、高可靠性和高容错性等优点。Hadoop软件的核心组成包括Hadoop分布式文件系统(即HDFS系统)和MapReduce编程模型。其中HDFS系统负责文件的分布式存储和管理,MapReduce编程模型负责提供分布式并行运算的框架。
而MapReduce将大数据的并行运算过程一般分解为两个步骤,即Map步骤和Reduce步骤,其中Map步骤和Reduce步骤对数据进行运算时,一般会将运算所得的结果存储在本地存储中,若计算平台在运算过程中出现计算机宕机或断电等故障情况时,尚未写入本地存储的运算数据会发生丢失,导致重启系统时无法还原最新的运算数据,需要计算平台重新执行运算任务,重复系统故障前的每一步计算过程和数据操作、传输过程,导致程序执行时间延长,造成资源的浪费。
发明内容
为了克服现有技术的不足,本发明的目的之一在于提供一种基于非易失内存的分布式计算方法,能够在计算机宕机的情况下保持MapReduce计算过程中保存在非易失存储器中的计算中间结果不发生丢失,从而提高系统的效率和可靠性。
本发明的目的之二在于提供一种执行上述基于非易失内存的分布式计算方法的计算系统。
本发明的目的之三在于提供一种执行上述基于非易失内存的分布式计算方法的存储介质。
本发明的目的之一采用如下技术方案实现:
一种基于非易失内存的分布式计算方法,包括:
获取初始数据,对初始数据进行预处理;
将预处理后的数据分配至多个并行的映射节点进行处理,并将处理所得的中间结果存储于非易失存储器中;
从所述非易失存储器中领取中间结果,并将其输入归约节点中进行归约运算,以输出最终结果。
进一步地,所述非易失存储器采用读写时间小于50ns,且耐擦写次数大于1010的存储器。
进一步地,所述非易失存储器包括但不限于自旋转移扭矩磁性随机存储器、自旋轨道扭矩磁性随机存储器、磁性赛道存储器或铁电随机存储器。
进一步地,对所述初始数据进行预处理包括:
将初始数据按照预设切分规则分割为多个数据分片,使得每个数据分片对应一个映射任务。
进一步地,所述中间结果的获取和存储方法为:
每个所述映射节点分别利用映射函数对数据分片进行运算,将运算所得的结果写入所述映射节点的缓存区中;
再对所述映射节点的缓存区中的数据进行洗牌、溢写及文件归并操作后获得中间结果,并将其保存在该映射节点所对应的非易失存储器中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于普赛微科技(杭州)有限公司,未经普赛微科技(杭州)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110550478.1/2.html,转载请声明来源钻瓜专利网。