[发明专利]分布式任务的异常处理方法及系统在审
申请号: | 202011390879.7 | 申请日: | 2020-12-02 |
公开(公告)号: | CN114553880A | 公开(公告)日: | 2022-05-27 |
发明(设计)人: | 吴文斐;刘俊林;陈奕熹 | 申请(专利权)人: | 中关村海华信息技术前沿研究院 |
主分类号: | H04L67/1008 | 分类号: | H04L67/1008;H04L67/565;H04L1/16;G06N3/08;G06F9/50 |
代理公司: | 上海巅石知识产权代理事务所(普通合伙) 31309 | 代理人: | 王再朝 |
地址: | 100086 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布式 任务 异常 处理 方法 系统 | ||
本申请公开一种分布式任务的异常处理方法及系统,其中所述分布式任务的异常处理方法包括:当接收到异常重传指令时,发送包含第一数据格式的任务参数和用于指示由参数节点执行聚合操作的标识信息的第一数据包;其中,所述异常重传指令用于指示工作节点执行数据格式转化;所述任务参数是通过执行一分布式计算任务得到的;接收包含聚合参数的第二数据包;其中,所述聚合参数用于供对应同一分布式计算任务的各工作节点进行数据处理;其中,所述聚合参数是由参数节点依据所述第一数据包执行聚合操作后得到的。本申请参数节点在检测聚合参数溢出的情况下,工作节点重传不同数据格式的任务参数,解决了转发节点无法处理聚合参数溢出的问题。
技术领域
本申请涉及计算机数据处理领域,具体的涉及一种分布式任务的异常处理方法及系统。
背景技术
分布式计算系统可用于深度神经网络的样本训练与梯度更新。当工作节点所需计算的数据量增大,执行聚合的节点在汇集各工作节点传输的数据并进行计算时有时会出现溢出的情况。
发明内容
鉴于以上所述相关技术的缺点,本申请的目的在于提供一种分布式任务的异常处理方法及系统,用以克服上述相关技术中存在的分布式计算时出现溢出的技术问题。
为实现上述目的及其他相关目的,本申请公开的第一方面提供一种分布式任务的异常处理方法,包括:当接收到异常重传指令时,发送包含第一数据格式的任务参数和用于指示由参数节点执行聚合操作的标识信息的第一数据包;其中,所述异常重传指令用于指示工作节点执行数据格式转化;所述任务参数是通过执行一分布式计算任务得到的;接收包含聚合参数的第二数据包;其中,所述聚合参数用于供对应同一分布式计算任务的各工作节点进行数据处理;其中,所述聚合参数是由参数节点依据所述第一数据包执行聚合操作后得到的。
本申请公开的第二方面提供一种分布式任务的异常处理系统,包括:发送模块,用于当接收到异常重传指令时,发送包含第一数据格式的任务参数和用于指示由参数节点执行聚合操作的标识信息的第一数据包;其中,所述异常重传指令用于指示工作节点执行数据格式转化;所述任务参数是通过执行一分布式计算任务得到的;接收模块,用于接收包含聚合参数的第二数据包;其中,所述聚合参数用于供对应同一分布式计算任务的各工作节点进行数据处理;其中,所述聚合参数是由参数节点依据所述第一数据包执行聚合操作后得到的。
本申请公开的第三方面提供一种工作节点,包括:至少一个存储器,用于存储至少一个程序;至少一个处理器,与所述至少一个存储器连接,用于运行所述至少一个程序时以执行并实现如第一方面所述的分布式任务的异常处理方法。
本申请公开的第四方面提供一种分布式任务的异常处理方法,包括:接收包含聚合参数的第二数据包;其中,所述聚合参数是转发节点通过对多个工作节点发送的包含第二数据格式的任务参数的第一数据包执行聚合操作得到的;其中,所述任务参数是工作节点通过执行一分布式计算任务而得到的;当检测到所述聚合参数溢出时,发出异常重传指令;其中,所述异常重传指令用于指示工作节点执行数据格式转化;接收工作节点基于异常重传指令重新发送的第一数据包,其中,所述重新发送的第一数据包中包含第一数据格式的任务参数和用于指示由参数节点执行聚合操作的标识信息;依据所述第一数据包中的标识信息对各第一数据格式的任务参数执行聚合操作得到包含聚合参数的第二数据包,并反馈至各工作节点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中关村海华信息技术前沿研究院,未经中关村海华信息技术前沿研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011390879.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:分布式任务处理方法、系统及存储介质
- 下一篇:分布式任务处理方法及系统