[发明专利]虚拟对象的动作确定模型训练方法、装置、设备及介质在审
申请号: | 202011217465.4 | 申请日: | 2020-11-04 |
公开(公告)号: | CN112221140A | 公开(公告)日: | 2021-01-15 |
发明(设计)人: | 杜雪莹;石贝;练振杰;高一鸣;陈光伟;王亮;付强 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | A63F13/55 | 分类号: | A63F13/55 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 徐立 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 虚拟 对象 动作 确定 模型 训练 方法 装置 设备 介质 | ||
1.一种虚拟对象的动作确定模型训练方法,其特征在于,所述方法包括:
基于虚拟场景的第一环境状态,确定所述虚拟场景在目标时长后的计算环境状态,所述第一环境状态和所述计算环境状态分别表示虚拟场景的环境;
根据所述计算环境状态和所述第一环境状态在下一时刻的实际环境状态,确定内在奖励信息,所述内在奖励信息用于指示执行目标动作是否对虚拟对象有益,所述实际环境状态用于指示所述虚拟场景处于所述第一环境状态下所述虚拟对象执行所述目标动作后的环境状态;
根据所述内在奖励信息,调整当前动作确定模型的参数;
响应于所述当前动作确定模型符合第一目标条件,将所述当前动作确定模型确定为训练完毕的动作确定模型,所述动作确定模型用于根据输入的环境状态输出动作。
2.根据权利要求1所述的方法,其特征在于,所述根据所述计算环境状态和所述第一环境状态在下一时刻的实际环境状态,确定内在奖励信息,包括:
获取所述第一环境状态与所述计算环境状态的第一差值;
获取所述实际环境状态与所述计算环境状态的第二差值;
将所述第一差值和所述第二差值之间的目标差值确定为所述内在奖励信息,所述目标差值不为负表示执行所述目标动作对所述虚拟对象有益。
3.根据权利要求2所述的方法,其特征在于,所述获取所述第一环境状态与所述计算环境状态的第一差值之前,所述方法还包括:
将所述第一环境状态和所述实际环境状态,变换到与所述计算环境状态相同的维度。
4.根据权利要求1所述的方法,其特征在于,所述基于虚拟场景的第一环境状态,确定所述虚拟场景在目标时长后的计算环境状态,包括:
确定所述虚拟场景的第一环境状态的第一环境向量;
将所述第一环境向量输入环境状态确定模型,由所述环境状态确定模型输出所述虚拟场景在目标时长后的计算环境状态,所述环境状态确定模型用于根据已知的环境状态计算目标时长后的环境状态。
5.根据权利要求4所述的方法,其特征在于,所述环境状态确定模型的训练步骤包括:
获取第一样本环境状态和在目标时长之后所述第一样本环境状态对应的第二样本环境状态;
以所述第一样本环境状态为输入,所述第二样本环境状态为标签信息,对本次迭代过程中的环境状态确定模型进行训练;
响应于所述本次迭代过程中的环境状态确定模型符合第二目标条件,将所述本次迭代过程中的环境状态确定模型作为训练完毕的环境状态确定模型。
6.根据权利要求5所述的方法,其特征在于,所述第二样本环境状态基于先验知识提取得到。
7.根据权利要求4所述的方法,其特征在于,所述环境状态确定模型为任一次迭代过程对应的环境状态确定模型。
8.根据权利要求1所述的方法,其特征在于,所述根据所述内在奖励信息,调整当前动作确定模型的参数之后,所述方法还包括:
对所述当前动作确定模型进行自对弈训练。
9.一种虚拟对象的动作确定模型训练装置,其特征在于,所述装置包括:
状态确定模块,用于基于虚拟场景的第一环境状态,确定所述虚拟场景在目标时长后的计算环境状态,所述第一环境状态和所述计算环境状态分别表示虚拟场景的环境;
信息确定模块,用于根据所述计算环境状态和所述第一环境状态在下一时刻的实际环境状态,确定内在奖励信息,所述内在奖励信息用于指示执行目标动作是否对虚拟对象有益,所述实际环境状态用于指示所述虚拟场景处于所述第一环境状态下所述虚拟对象执行所述目标动作后的环境状态;
参数调整模块,用于根据所述内在奖励信息,调整当前动作确定模型的参数;
模型确定模块,用于响应于所述当前动作确定模型符合第一目标条件,将所述当前动作确定模型确定为训练完毕的动作确定模型,所述动作确定模型用于根据输入的环境状态输出动作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011217465.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于电池极板群铸焊的流铅控制装置
- 下一篇:一种砝码磁化率自动测试装置