[发明专利]虚拟对象行为策略的训练方法及装置、电子设备、存储介质在审
申请号: | 201911254761.9 | 申请日: | 2019-12-09 |
公开(公告)号: | CN111026272A | 公开(公告)日: | 2020-04-17 |
发明(设计)人: | 贾航天;林磊 | 申请(专利权)人: | 网易(杭州)网络有限公司 |
主分类号: | G06F3/01 | 分类号: | G06F3/01;G06N20/00 |
代理公司: | 北京超成律师事务所 11646 | 代理人: | 王文红 |
地址: | 310052 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 虚拟 对象 行为 策略 训练 方法 装置 电子设备 存储 介质 | ||
1.一种虚拟对象行为策略的训练方法,其特征在于,包括:
获取虚拟对象执行交互动作的前后状态数据;
根据预先为虚拟对象所执行任务配置的带有梯度变化的奖励函数,计算所述虚拟对象执行所述交互动作的奖励值;其中,所述梯度随所述虚拟对象执行所述交互动作后的当前状态与目标状态之间的距离变化;
利用执行所述交互动作的前后状态数据和奖励值,训练到达所述目标状态的行为策略。
2.根据权利要求1所述的方法,其特征在于,所述根据预先为虚拟对象所执行任务配置的带有梯度变化的奖励函数,计算所述虚拟对象执行所述交互动作的奖励值,包括:
根据执行所述交互动作后的当前状态,计算所述虚拟对象从所述当前状态到达所述目标状态的距离;
将所述距离作为所述奖励函数的输入,获得所述奖励函数输出的执行所述交互动作的奖励值。
3.根据权利要求1所述的方法,其特征在于,所述任务包括多个子任务,每个子任务具有对应的所述奖励函数;所述获取虚拟对象执行交互动作的前后状态数据,包括:
为每个子任务进行子交互动作的选择;
控制所述虚拟对象执行每个子任务下的子交互动作,获得每个子任务下执行所述子交互动作的前后子状态数据;
所述根据预先为虚拟对象所执行任务配置的带有梯度变化的奖励函数,计算所述虚拟对象执行所述交互动作的奖励值,包括:
根据每个子任务对应的奖励函数以及每个子任务下的子交互动作,计算每个子任务下执行对应子交互动作的分支奖励;
叠加每个子任务下执行对应子交互动作的分支奖励,获得所述虚拟对象执行所有子交互动作的奖励值。
4.根据权利要求3所述的方法,其特征在于,所述叠加每个子任务下执行对应子交互动作的分支奖励,获得所述虚拟对象执行所有子交互动作的奖励值,包括:
按照为每个子任务配置的权重,将每个子任务对应的所述分支奖励加权相加,得到所述虚拟对象执行所有子交互动作的奖励值。
5.根据权利要求3所述的方法,其特征在于,所述根据每个子任务对应的奖励函数以及每个子任务下的子交互动作,计算每个子任务下执行对应子交互动作的分支奖励,包括:
针对每个子任务,根据所述子任务下执行对应子交互动作后的子状态数据,计算所述虚拟对象从所述子状态数据到所述目标状态的距离;
对每个子任务下的所述距离进行归一化;
针对每个子任务,将所述子任务下归一化后的距离作为所述子任务所对应奖励函数的输入,得到所述奖励函数输出的所述子任务下对应子交互动作的分支奖励。
6.根据权利要求1所述的方法,其特征在于,所述利用执行所述交互动作的前后状态数据和奖励值,训练到达所述目标状态的行为策略,包括:
搭建所述行为策略的神经网络模型;
获取包含所述前后状态数据、交互动作和奖励值的一组经验数据,将所述经验数据中的后状态数据作为所述神经网络模型的输入,根据所述后状态数据下不同交互动作对应的所述神经网络模型的输出,获取所述神经网络模型的最大输出值;
将所述经验数据中的奖励值与所述最大输出值进行相加,得到目标收益值;
将所述经验数据中的前状态数据和所述前状态数据下的交互动作作为所述神经网络模型的输入,更新所述神经网络模型的参数,使所述神经网络模型输出的未来期望值向所述目标收益值逼近。
7.根据权利要求1所述的方法,其特征在于,
所述奖励函数为正向奖励函数,所述奖励值为正值,所述正向奖励函数的梯度随着所述虚拟对象当前状态与目标状态之间的距离减小而增大;
或者,
所述奖励函数为负向奖励函数,所述奖励值为负值,所述负向奖励函数的梯度随着所述虚拟对象当前状态与目标状态之间的距离增大而增大。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网易(杭州)网络有限公司,未经网易(杭州)网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911254761.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数控机床刀库刀具信息存储与调用方法
- 下一篇:电子设备