[发明专利]虚拟机器人训练方法、装置、电子设备和介质有效
申请号: | 202010108453.1 | 申请日: | 2020-02-21 |
公开(公告)号: | CN111389010B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 任春旭;吕唐杰;范长杰;胡志鹏 | 申请(专利权)人: | 网易(杭州)网络有限公司 |
主分类号: | A63F13/67 | 分类号: | A63F13/67;G06N3/008 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 彭星 |
地址: | 310052 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 虚拟 机器人 训练 方法 装置 电子设备 介质 | ||
本申请提供了虚拟机器人训练方法、装置、电子设备和介质,涉及人工智能领域。本申请提供的方法,先生成了包含有多个目标虚拟机器人的机器人集合;而后,针对每个目标虚拟机器人,从机器人集合中选择不同的虚拟机器人与该目标虚拟机器人进行模拟对抗,并根据模拟对抗结果和该目标虚拟机器人对应的回报函数训练该目标虚拟机器人,以及根据训练后的目标虚拟机器人更新机器人集合中的虚拟机器人;最后从训练后得到的所述机器人集合中选择第一目标虚拟机器人作为训练结果。这种训练虚拟机器人的方法,使得虚拟机器人可以从不同种类的对手中学习到相应的对抗策略,丰富了虚拟机器人的战斗应变能力。
技术领域
本申请涉及人工智能领域,具体而言,涉及虚拟机器人训练方法、装置、电子设备和介质。
背景技术
电子游戏中存在有各种各样的机器人,这些机器人可以作为对手与玩家进行对抗,也可以是在玩家暂离的时候接替玩家来对玩家所控制的角色下达操作指令,以接管该角色。
传统方案中,这些机器人均是按照编程人员所编写的控制程序来执行动作的。比如,编程人员会在程序代码中写明,在A条件下执行第一动作,在B条件下执行第二动作。
一般情况下,编程人员主要是依据其玩游戏的经验来编写这些控制程序的,因此,编程人员的游戏水平越高,利用其编写出来的控制程序来运行的机器人的能力也就越强。
发明内容
本申请的目的在于提供虚拟机器人训练方法、装置、电子设备和介质。
在一些实施例中,一种虚拟机器人训练方法,包括:
生成包含有多个目标虚拟机器人的机器人集合;多个目标虚拟机器人对应有不同的第一属性信息;
针对每个目标虚拟机器人,从机器人集合中选择不同的虚拟机器人与该目标虚拟机器人进行模拟对抗,并根据模拟对抗结果和该目标虚拟机器人对应的回报函数训练该目标虚拟机器人,以及根据训练后的目标虚拟机器人更新机器人集合中的虚拟机器人;
从训练后得到的机器人集合中选择第一目标虚拟机器人作为训练结果。
在一些实施例中,针对每个目标虚拟机器人,从机器人集合中选择不同的虚拟机器人与该目标虚拟机器人进行模拟对抗,并根据模拟对抗结果和该目标虚拟机器人对应的回报函数训练该目标虚拟机器人,以及根据训练后的目标虚拟机器人更新机器人集合中的虚拟机器人,包括:
迭代执行如下步骤,直至达到终止训练条件:
针对每个目标虚拟机器人,从机器人集合中选择指定的虚拟机器人与该目标虚拟机器人进行模拟对抗;
针对每个目标虚拟机器人,根据该目标虚拟机器人的模拟对抗结果和该目标虚拟机器人对应的回报函数对该目标虚拟机器人进行训练;
针对每个目标虚拟机器人,根据训练后的目标虚拟机器人更新机器人集合中的虚拟机器人。
在一些实施例中,终止训练条件包括以下的任意一个:
多个目标虚拟机器人中对抗优势程度低于预定数值的虚拟机器人的数量是否超过预定数值;目标虚拟机器人的对抗优势程度是根据该目标虚拟机器人每次模拟对抗的结果的变化程度确定的;
多个目标虚拟机器人中的第二目标虚拟机器人的对抗优势程度是否符合预设要求;第二目标虚拟机器人的对抗优势程度是根据第二目标虚拟机器人每次模拟对抗的结果的变化程度确定的。
在一些实施例中,第一属性信息包括以下的任意一种或多种:
角色类型、回报函数。
在一些实施例中,从训练后得到的机器人集合中选择第一目标虚拟机器人作为训练结果,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网易(杭州)网络有限公司,未经网易(杭州)网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010108453.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种双头点焊机
- 下一篇:一种快件自动分拣装置