[发明专利]一种异常恢复方法和服务器有效
申请号: | 201911305155.5 | 申请日: | 2019-12-17 |
公开(公告)号: | CN111078480B | 公开(公告)日: | 2023-09-01 |
发明(设计)人: | 张俊钦 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 |
主分类号: | G06F11/22 | 分类号: | G06F11/22 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 异常 恢复 方法 服务器 | ||
1.一种异常恢复方法,其特征在于,所述方法包括:
在确定多个目标执行器针对训练数据集执行训练任务的情况下,分别获取所述多个目标执行器对消息队列中的样本数据的读取速度,所述目标执行器的读取速度是根据所述目标执行器在目标时间段内所读取的消息队列的长度,与所述目标时间段的长度确定的,所述多个目标执行器用于同时读取样本数据进行分布式训练;
根据所述读取速度确定所述多个目标执行器的平均读取速度;
根据所述平均读取速度确定所述多个目标执行器中是否存在读取速度异常的异常执行器;
若存在所述异常执行器,则停止所述异常执行器的训练任务,并采用备选执行器继续执行训练任务。
2.根据权利要求1所述的方法,其特征在于,所述多个目标执行器中包括第一目标执行器,所述第一目标执行器用于执行训练任务并保存检查点信息,所述方法还包括:
检测所述第一目标执行器保存检查点信息的进度是否存在异常;所述检查点信息为所述第一目标执行器从目标参数器中获取的;
若所述第一目标执行器保存检查点信息的进度存在异常,则暂停所述第一目标执行器和所述多个目标执行器的训练任务;
确定备选第一目标执行器,采用所述备选第一目标执行器和所述多个目标执行器继续执行训练任务,并采用所述第一目标执行器继续保存检查点信息。
3.根据权利要求2所述的方法,其特征在于,所述检测所述第一目标执行器保存检查点信息的进度是否存在异常,包括:
记录所述第一目标执行器向服务器开始发送检查点信息的第一时间点,并记录所述第一目标执行器发送完成所述检查点信息的第二时间点;
根据所述第二时间点和所述第一时间点之间的差值确定第一数据延迟时间;
若所述第一数据延迟时间大于或等于第一阈值,则确定所述第一目标执行器保存检查点信息的进度存在异常。
4.根据权利要求1所述的方法,其特征在于,所述根据所述平均读取速度确定所述多个目标执行器中是否存在读取速度异常的异常执行器,包括:
分别确定每个所述目标执行器的读取速度与所述平均读取速度的差值的绝对值,得到绝对差值;
将所述绝对差值大于或等于第二阈值的目标执行器确定为读取速度异常的异常执行器。
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
检测所述目标参数器是否存在异常;所述目标参数器用于保存所述多个目标执行器返回的参数信息,所述参数信息为所述目标执行器根据当前训练更新的模型梯度信息;
若所述目标参数器存在异常,则将所述目标参数器已保存的参数信息转存到备选参数器,并采用所述备选参数器保存所述多个目标执行器后续返回的参数信息。
6.根据权利要求5所述的方法,其特征在于,所述检测所述目标参数器是否存在异常,包括:
检测所述目标参数器的内存使用率;
若所述内存使用率大于或等于第三阈值,则确定所述目标参数器存在异常。
7.根据权利要求5所述的方法,其特征在于,所述检测所述目标参数器是否存在异常,包括:
记录所述目标执行器向所述目标参数器上报已更新的参数信息的第三时间点,并记录所述目标参数器根据所述已更新的参数信息更新所述目标参数器中的参数信息的第四时间点;
根据所述第三时间点和所述第四时间点之间的差值确定第二数据延迟时间;
若所述第二数据延迟时间大于或等于第四阈值,则确定所述目标参数器存在异常。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911305155.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种隧道用水性防火无机涂料及其制备方法
- 下一篇:基于智能系统控制的加热炉