[发明专利]分布式任务的异常处理方法及系统在审
申请号: | 202011390879.7 | 申请日: | 2020-12-02 |
公开(公告)号: | CN114553880A | 公开(公告)日: | 2022-05-27 |
发明(设计)人: | 吴文斐;刘俊林;陈奕熹 | 申请(专利权)人: | 中关村海华信息技术前沿研究院 |
主分类号: | H04L67/1008 | 分类号: | H04L67/1008;H04L67/565;H04L1/16;G06N3/08;G06F9/50 |
代理公司: | 上海巅石知识产权代理事务所(普通合伙) 31309 | 代理人: | 王再朝 |
地址: | 100086 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布式 任务 异常 处理 方法 系统 | ||
1.一种分布式任务的异常处理方法,其特征在于,包括:
当接收到异常重传指令时,发送包含第一数据格式的任务参数和用于指示由参数节点执行聚合操作的标识信息的第一数据包;其中,所述异常重传指令用于指示工作节点执行数据格式转化;所述任务参数是通过执行一分布式计算任务得到的;
接收包含聚合参数的第二数据包;其中,所述聚合参数用于供对应同一分布式计算任务的各工作节点进行数据处理;其中,所述聚合参数是由参数节点依据所述第一数据包执行聚合操作后得到的。
2.根据权利要求1所述的分布式任务的异常处理方法,其特征在于,在接收异常重传指令之前还包括:发送包含第二数据格式的任务参数和用于指示由转发节点执行聚合操作的标识信息的第一数据包。
3.根据权利要求1所述的分布式任务的异常处理方法,其特征在于,所述第一数据包中还包含任务标识信息,以供执行聚合操作的转发节点或参数节点确认所述第一数据包对应的分布式计算任务。
4.根据权利要求1所述的分布式任务的异常处理方法,其特征在于,所述第一数据包中还包含节点标识信息,以供执行聚合操作的转发节点或参数节点确认对应于同一分布式计算任务的工作节点。
5.根据权利要求1所述的分布式任务的异常处理方法,其特征在于,还包括:在发送所述第一数据包期间执行丢包检测,以及在检测到丢包时重新发送所述第一数据包。
6.根据权利要求1所述的分布式任务的异常处理方法,其特征在于,所述分布式计算任务包括利用分布式计算的方式对机器学习算法进行梯度训练的计算任务。
7.一种分布式任务的异常处理系统,其特征在于,包括:
发送模块,用于当接收到异常重传指令时,发送包含第一数据格式的任务参数和用于指示由参数节点执行聚合操作的标识信息的第一数据包;其中,所述异常重传指令用于指示工作节点执行数据格式转化;所述任务参数是通过执行一分布式计算任务得到的;
接收模块,用于接收包含聚合参数的第二数据包;其中,所述聚合参数用于供对应同一分布式计算任务的各工作节点进行数据处理;其中,所述聚合参数是由参数节点依据所述第一数据包执行聚合操作后得到的。
8.一种工作节点,其特征在于,包括:
至少一个存储器,用于存储至少一个程序;
至少一个处理器,与所述至少一个存储器连接,用于运行所述至少一个程序时以执行并实现如权利要求1至6任一项所述的分布式任务的异常处理方法。
9.一种分布式任务的异常处理方法,其特征在于,包括:
接收包含聚合参数的第二数据包;其中,所述聚合参数是转发节点通过对多个工作节点发送的包含第二数据格式的任务参数的第一数据包执行聚合操作得到的;其中,所述任务参数是工作节点通过执行一分布式计算任务而得到的;
当检测到所述聚合参数溢出时,发出异常重传指令;其中,所述异常重传指令用于指示工作节点执行数据格式转化;
接收工作节点基于异常重传指令重新发送的第一数据包,其中,所述重新发送的第一数据包中包含第一数据格式的任务参数和用于指示由参数节点执行聚合操作的标识信息;依据所述第一数据包中的标识信息对各第一数据格式的任务参数执行聚合操作得到包含聚合参数的第二数据包,并反馈至各工作节点。
10.根据权利要求9所述的分布式任务的异常处理方法,其特征在于,所述第一数据包中还包含供确认所述第一数据包对应的分布式计算任务的任务标识信息,以及供确认对应于同一分布式计算任务的工作节点的节点标识信息。
11.根据权利要求9所述的分布式任务的异常处理方法,其特征在于,所述分布式计算任务包括分布式神经网络的梯度训练任务。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中关村海华信息技术前沿研究院,未经中关村海华信息技术前沿研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011390879.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:分布式任务处理方法、系统及存储介质
- 下一篇:分布式任务处理方法及系统