[发明专利]游戏中的人工智能训练方法及装置、存储介质及电子装置有效
申请号: | 201910156721.4 | 申请日: | 2019-03-01 |
公开(公告)号: | CN109731338B | 公开(公告)日: | 2022-06-21 |
发明(设计)人: | 宋研;陈赢峰;林磊;范长杰 | 申请(专利权)人: | 网易(杭州)网络有限公司 |
主分类号: | A63F13/70 | 分类号: | A63F13/70;G06N5/02 |
代理公司: | 北京博浩百睿知识产权代理有限责任公司 11134 | 代理人: | 赵昀彬 |
地址: | 310000 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 游戏 中的 人工智能 训练 方法 装置 存储 介质 电子 | ||
本发明公开了一种游戏中的人工智能训练方法及装置、存储介质及电子装置。其中,该方法包括:根据游戏中的参数化动作构建策略网络以及参数网络集合,其中,参数网络集合中包括至少一个参数网络,策略网络用于确定游戏中的参数化动作的动作标识,参数网络用于确定参数化动作的动作参数;根据待训练的人工智能的状态参数、策略网络以及参数网络集合对所进行人工智能训练,以更新所述策略网络和所述参数网络集合。本发明解决了相关技术中以参数化动作为输入的游戏中缺乏有效地人工智能训练方法的技术问题。
技术领域
本发明涉及人工智能领域,具体而言,涉及一种游戏中的人工智能训练方法及装置、存储介质及电子装置。
背景技术
目前强化学习被广泛应用于各类游戏之中,这些游戏按输入动作大致可分为两类:第一类为输入动作可被完全离散的游戏(如围棋、Atari等);第二类则为输入动作不可被完全离散的游戏(如MOBA类、MMORPG类游戏)。其中,第二类游戏的输入往往比较复杂,通常既包括离散的动作选择(例如技能),又包括连续的动作输出(如技能的方向、力度等参数)。这类游戏经过一定的转换,都可以将输入抽象成参数化动作的形式,即选择某一个动作后还需指定对应的参数才可完成该动作。例如,逆水寒的动作模式下,通过离散的动作键(前、后、左、右、技能等)和鼠标控制的方向即可完成游戏角色的控制。
相关技术中,处理参数化动作主要有以下三个思路:
方案1.首先通过共用的特征提取网络提取特征,然后再用两个独立的网络分别输出所有的离散动作概率分布和对应的参数。随后再根据选取的动作定位到对应的参数,完成行为控制。
上述技术方案1中将离散动作和对应的参数视为平行的两个部分,二者互相不会产生任何影响,同时底层共用网络同时学习所有技能的释放方法,会大幅加大学习的难度。例如,某些参数化动作(例如游戏中的虚拟人物技能)需要对目标的方向释放,某些技能需要向目标相反的方向释放,一个网络同时学习两个完全相反的处理逻辑将变得非常困难。
2.将动作空间和对应的参数空间进行排列组合,生成全量的动作空间。
上述技术方案2产生的动作空间通常很大,且无法处理连续的输入,实用性较差。
3.采用分层的思路,将离散动作选择和参数输出视为需要顺序解决的问题。既首先输出离散动作,然后根据选择的动作输出对应的参数。
上述技术方案3的一个难点是如何将这两种非连续的网络整合在一起进行训练。
由相关技术中的技术方案可以知晓,在参数化动作为输入的游戏中,如何有效的进行强化学习人工智能训练,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种游戏中的人工智能训练方法及装置、存储介质及电子装置,以至少解决相关技术中以参数化动作为输入的游戏中缺乏有效地人工智能训练方法的技术问题。
根据本发明实施例的一个方面,提供了一种游戏中的人工智能训练方法,所述人工智能以参数化动作作为游戏操作输入,包括:根据游戏中的参数化动作构建策略网络以及参数网络集合,其中,所述参数网络集合中包括至少一个参数网络,所述策略网络用于确定所述游戏中的参数化动作的动作标识,所述参数网络用于确定所述参数化动作的动作参数;根据待训练的人工智能的状态参数、所述策略网络以及所述参数网络集合对所进行人工智能训练,以更新所述策略网络和所述参数网络集合。
进一步地,根据游戏中的参数化动作构建策略网络以及参数网络集合包括:根据所述参数化动作的参数确定所述至少一个参数网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网易(杭州)网络有限公司,未经网易(杭州)网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910156721.4/2.html,转载请声明来源钻瓜专利网。