[发明专利]一种异常恢复方法和服务器有效

申请号：	201911305155.5	申请日：	2019-12-17
公开（公告）号：	CN111078480B	公开（公告）日：	2023-09-01
发明（设计）人：	张俊钦	申请（专利权）人：	北京奇艺世纪科技有限公司
主分类号：	G06F11/22	分类号：	G06F11/22
代理公司：	北京润泽恒知识产权代理有限公司 11319	代理人：	莎日娜
地址：	100080 北京市海淀***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种异常恢复方法服务器
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例提供了一种异常恢复方法和服务器，在确定多个目标执行器针对训练数据集执行训练任务的情况下，分别检测所述多个目标执行器对消息队列中的样本数据的读取速度；根据所述读取速度确定所述多个目标执行器的平均读取速度；根据所述平均读取速度确定所述多个目标执行器中是否存在读取速度异常的异常执行器；若存在所述异常执行器，则停止所述异常执行器的训练任务，并采用备选执行器继续执行训练任务。在上述方法中，可以实时检测在线训练过程中目标执行机出现的异常情况，并可利用备选执行机继续执行训练任务，降低了训练的失败率，使得深度学习模型可以及时对发生的事件进行预测，提高了预测时效性。

技术领域

本发明涉及深度学习领域，特别是涉及一种异常恢复方法和服务器。

背景技术

深度学习模型为了达到比较高的时效性，通常会进行实时的在线训练，让模型实时读取最新的数据样本进行训练，可以很好的对实时发生的事件进行预测。

例如，谷歌的Tensorflow(多维数组基于数据流图的计算)深度学习模型可以通过实时读取数据集来进行深度学习。当深度学习的训练数据太多的时候，Tensorflow会通过分布式训练的方式来启动多个执行器同时读取训练数据进行训练，进而加快了训练速度。然而，在线训练不同于离线训练，它对于训练的持久性和可靠性都有比较高的要求。在实际的环境下，分布式训练的多个执行器中难免会存在出现问题的执行机，从而导致整个训练任务失败，只能重新开启训练任务，导致在线训练的模型无法对发生的事件进行实时预测，失去了预测的时效性。

由此可见，目前深度学习模型的在线训练失败率较高，对事件预测的时效性较差。

发明内容

本发明实施例的目的在于提供一种异常恢复方法和服务器，以实现解决深度学习模型的在线训练失败率较高，对事件预测的时效性较差的问题。具体技术方案如下：

在本发明实施的第一方面，首先提供了一种异常恢复方法，所述方法包括：

在确定多个目标执行器针对训练数据集执行训练任务的情况下，分别获取所述多个目标执行器对消息队列中的样本数据的读取速度；

根据所述读取速度确定所述多个目标执行器的平均读取速度；

根据所述平均读取速度确定所述多个目标执行器中是否存在读取速度异常的异常执行器；

若存在所述异常执行器，则停止所述异常执行器的训练任务，并采用备选执行器继续执行训练任务。

可选地，所述多个目标执行器中包括第一目标执行器，所述第一目标执行器用于执行训练任务并保存检查点信息，所述方法还包括：

检测所述第一目标执行器保存检查点信息的进度是否存在异常；所述检查点信息为所述第一目标执行器从目标参数器中获取的；

若所述第一目标执行器保存检查点信息的进度存在异常，则暂停所述第一目标执行器和所述多个目标执行器的训练任务；

确定备选第一目标执行器，采用所述备选第一目标执行器和所述多个目标执行器继续执行训练任务，并采用所述第一目标执行器继续保存检查点信息。