[发明专利]虚拟对象行为策略的训练方法及装置、电子设备、存储介质在审
申请号: | 201911254761.9 | 申请日: | 2019-12-09 |
公开(公告)号: | CN111026272A | 公开(公告)日: | 2020-04-17 |
发明(设计)人: | 贾航天;林磊 | 申请(专利权)人: | 网易(杭州)网络有限公司 |
主分类号: | G06F3/01 | 分类号: | G06F3/01;G06N20/00 |
代理公司: | 北京超成律师事务所 11646 | 代理人: | 王文红 |
地址: | 310052 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 虚拟 对象 行为 策略 训练 方法 装置 电子设备 存储 介质 | ||
本申请提供了一种虚拟对象行为策略的训练方法及装置、电子设备、存储介质,属于人工智能技术领域,具体包括:获取虚拟对象执行交互动作的前后状态数据;根据预先为虚拟对象所执行任务配置的带有梯度变化的奖励函数,计算虚拟对象执行交互动作的奖励值;其中,梯度随虚拟对象执行交互动作后的当前状态与目标状态之间的距离变化;利用执行交互动作的前后状态数据和奖励值,训练到达目标状态的行为策略。故奖励值的变化规律更符合人类和动物的学习规律,从而提高训练效率,更加快速地模仿人类和动物的学习过程。
技术领域
本申请涉及人工智能技术领域,特别涉及一种虚拟对象行为策略的训练方法及装置、电子设备、计算机可读存储介质。
背景技术
强化学习是机器学习的其中一个子领域,主要是通过智能体和其所处的环境之间的交互以及其从环境获得的奖励(reward)来更新智能体对环境的一个理解,从而可以产生更好的策略以提升智能体从环境中获得的累积长远奖励,经过不断训练,理论上智能体可以逐渐产生出针对一个环境的最优策略。
如图1所示,以“蒙特祖玛的复仇”的游戏举例来说,智能体每向梯子底端走一步就给1分奖励,远离梯子底端的时候就给-1分的惩罚,这样子智能体应该可以很快的学习到要向下梯子的方向走,因为这样才能获得更多的奖励。
但是这种线性的奖励可能对于智能体的学习效率并不能很好的提升,假设需要训练一个智能体沿着一个小桥过河,按照现有技术可以将这个奖励设计为每向河对面靠近一步就给一个固定的分数,但其实作为人类或者动物的学习方式而言,内心的激动程度在过河的过程中其实并不是线性变化的,按照现有这种线性奖励的设计不符合真实玩家的心态变化,导致训练效果不佳,训练效率低下。
发明内容
本申请实施例提供了一种虚拟对象行为策略的训练方法,用于提高训练效率。
本申请提供了一种虚拟对象行为策略的训练方法,包括:
获取虚拟对象执行交互动作的前后状态数据;
根据预先为虚拟对象所执行任务配置的带有梯度变化的奖励函数,计算所述虚拟对象执行所述交互动作的奖励值;其中,所述梯度随所述虚拟对象执行所述交互动作后的当前状态与目标状态之间的距离变化;
利用执行所述交互动作的前后状态数据和奖励值,训练到达所述目标状态的行为策略。
在一实施例中,所述根据预先为虚拟对象所执行任务配置的带有梯度变化的奖励函数,计算所述虚拟对象执行所述交互动作的奖励值,包括:
根据执行所述交互动作后的当前状态,计算所述虚拟对象从所述当前状态到达所述目标状态的距离;
将所述距离作为所述奖励函数的输入,获得所述奖励函数输出的执行所述交互动作的奖励值。
在一实施例中,所述任务包括多个子任务,每个子任务具有对应的所述奖励函数;所述获取虚拟对象执行交互动作的前后状态数据,包括:
为每个子任务进行子交互动作的选择;
控制所述虚拟对象执行每个子任务下的子交互动作,获得每个子任务下执行所述子交互动作的前后子状态数据;
所述根据预先为虚拟对象所执行任务配置的带有梯度变化的奖励函数,计算所述虚拟对象执行所述交互动作的奖励值,包括:
根据每个子任务对应的奖励函数以及每个子任务下的子交互动作,计算每个子任务下执行对应子交互动作的分支奖励;
叠加每个子任务下执行对应子交互动作的分支奖励,获得所述虚拟对象执行所有子交互动作的奖励值。
在一实施例中,所述叠加每个子任务下执行对应子交互动作的分支奖励,获得所述虚拟对象执行所有子交互动作的奖励值,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网易(杭州)网络有限公司,未经网易(杭州)网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911254761.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数控机床刀库刀具信息存储与调用方法
- 下一篇:电子设备