[发明专利]执行任务的方法、装置、设备和计算机可读存储介质在审

申请号：	202110277850.6	申请日：	2021-03-15
公开（公告）号：	CN112990482A	公开（公告）日：	2021-06-18
发明（设计）人：	车正平;徐志远;伍堃;唐剑	申请（专利权）人：	北京嘀嘀无限科技发展有限公司
主分类号：	G06N20/00	分类号：	G06N20/00
代理公司：	北京市金杜律师事务所 11256	代理人：	黄倩
地址：	100193 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	执行任务方法装置设备计算机可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种执行多个任务的方法，包括：

利用针对多个任务预先训练的多个模型来分别执行所述多个任务，以收集与所述多个任务对应的多组训练样本，

其中所述多组训练样本包括利用所述多个模型中的第一模型执行所述多个任务中的第一任务而收集的第一组训练样本，所述第一组训练样本中的每个训练样本包括所述第一模型从所述第一任务获取的第一状态、基于所述第一状态而确定的所述第一任务要执行的第一动作、在所述第一动作被执行后从所述第一任务获取的奖励得分以及所述第一任务的下一状态；以及

基于所述多组训练样本，训练用于执行所述多个任务的目标模型，以使所述目标模型基于从所述多个任务中的第二任务获取的第二状态来确定所述第二任务要执行的第二动作。

2.根据权利要求1所述的方法，还包括：

利用经训练的所述目标模型来执行所述多个任务，以收集与所述多个任务对应的多组新训练样本；以及

基于所述多组新训练样本，更新所述目标模型。

3.根据权利要求2所述的方法，其中：

所述多个模型中的每个模型包括表演者网络和至少一个评论者网络，所述表演者网络基于所述多个任务中的对应任务的状态来生成所述对应任务的动作，并且所述至少一个评论者网络针对所述对应任务的状态和动作进行评价；并且

所述目标模型包括目标表演者网络和至少一个目标评论者网络，所述目标表演者网络基于所述多个任务中的一个任务的状态来生成所述任务的动作，并且所述至少一个目标评论者网络针对所述任务的状态和动作进行评价。

4.根据权利要求3所述的方法，其中训练所述目标模型包括：

基于所述多组训练样本，确定用于训练所述至少一个目标评论者网络的第一目标函数，所述第一目标函数用于衡量所述至少一个评论者网络和所述至少一个目标评论者网络针对相同状态和相同动作的评价之间的差异；以及

基于所述第一目标函数，训练所述至少一个目标评论者网络。

5.根据权利要求4所述的方法，其中训练所述目标模型还包括：

基于所述至少一个评论者网络对所述目标表演者网络所生成的动作的评价，确定用于训练所述目标表演者网络的第二目标函数；以及