[发明专利]执行任务的方法、装置、设备和计算机可读存储介质在审

申请号：	202110277850.6	申请日：	2021-03-15
公开（公告）号：	CN112990482A	公开（公告）日：	2021-06-18
发明（设计）人：	车正平;徐志远;伍堃;唐剑	申请（专利权）人：	北京嘀嘀无限科技发展有限公司
主分类号：	G06N20/00	分类号：	G06N20/00
代理公司：	北京市金杜律师事务所 11256	代理人：	黄倩
地址：	100193 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	执行任务方法装置设备计算机可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开的实施例涉及用于执行任务的方法、装置、设备和计算机可读存储介质。该方法包括利用针对多个任务预先训练的多个模型来分别执行该多个任务，以收集与该多个任务对应的多组训练样本。其中，多组训练样本包括利用多个模型中的第一模型执行多个任务中的第一任务而收集的第一组训练样本。该方法还包括基于多组训练样本，训练用于执行多个任务的目标模型，以使该目标模型基于从多个任务中的第二任务获取的第二状态来确定第二任务要执行的第二动作。本公开的实施例通过将针对多个任务预先训练的多个模型的知识迁移到单个目标模型上，使得该目标模型能够执行多个任务，从而有效降低模型部署开销。

技术领域

本公开的实施例总体涉及机器学习领域，具体涉及用于执行任务的方法、装置、设备和计算机可读存储介质。

背景技术

随着深度学习技术的发展，强化学习能够在实际和复杂的控制任务中提供更好的性能。利用深度Q网络(DQN)的深度强化学习(DRL)已经在执行各种离散控制任务(例如，游戏)上取得了巨大的成功。针对单个任务，可以训练DRL模型(也称为“代理”)以基于从该任务观察到的状态来确定该任务要执行的动作。尽管DRL在单个任务上的表现较好，但是训练单个DRL模型来执行多个不同任务仍然具有挑战性。

发明内容

本公开的实施例提供了用于执行任务的方法、装置、设备和计算机可读存储介质。

在本公开的第一方面，提供了一种执行任务的方法。该方法包括利用针对多个任务预先训练的多个模型来分别执行该多个任务，以收集与该多个任务对应的多组训练样本。其中，多组训练样本包括利用多个模型中的第一模型执行多个任务中的第一任务而收集的第一组训练样本。第一组训练样本中的每个训练样本包括第一模型从第一任务获取的第一状态、基于第一状态而确定的第一任务要执行的第一动作、在第一动作被执行后从第一任务获取的奖励得分以及第一任务的下一状态。该方法还包括基于多组训练样本，训练用于执行多个任务的目标模型，以使该目标模型基于从多个任务中的第二任务获取的第二状态来确定第二任务要执行的第二动作。

在本公开的第二方面，提供了一种执行任务的装置。该装置包括：第一训练样本收集模块，被配置为利用针对多个任务预先训练的多个模型来分别执行该多个任务，以收集与该多个任务对应的多组训练样本，其中多组训练样本包括利用多个模型中的第一模型执行多个任务中的第一任务而收集的第一组训练样本，第一组训练样本中的每个训练样本包括第一模型从第一任务获取的第一状态、基于第一状态而确定的第一任务要执行的第一动作、在第一动作被执行后从第一任务获取的奖励得分以及第一任务的下一状态；以及模型训练模块，被配置为基于多组训练样本，训练用于执行多个任务的目标模型，以使该目标模型基于从多个任务中的第二任务获取的第二状态来确定第二任务要执行的第二动作。

在本公开的第三方面中，提供了一种计算设备，包括一个或多个处理器；以及存储器，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行时，使该计算设备实现根据本公开的第一方面所描述的方法的任意步骤。

在本公开的第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序。该计算机程序在被处理器执行时实现根据本公开的第一方面所描述的方法的任意步骤。

在本公开的第五方面，提供了一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现根据本公开的第一方面所描述的方法的任意步骤。

提供发明内容部分是为了以简化的形式来介绍对概念的选择，它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本公开的关键特征或必要特征，也无意限制本公开的范围。

附图说明

通过结合附图对本公开示例性实施例进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施例中，相同的参考标号通常代表相同部件。

图1示出了本公开的实施例能够在其中被实施的示例环境的框图；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京嘀嘀无限科技发展有限公司，未经北京嘀嘀无限科技发展有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110277850.6/2.html，转载请声明来源钻瓜专利网。

上一篇：一种可以回收的逆作区结构竖向承重装置
下一篇：基于词向量的搜索方法、终端、服务器及存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]执行任务的方法、装置、设备和计算机可读存储介质在审

专利文献下载