[发明专利]一种游戏动作的处理方法和装置有效
申请号: | 201811460098.3 | 申请日: | 2018-11-30 |
公开(公告)号: | CN109621431B | 公开(公告)日: | 2022-06-14 |
发明(设计)人: | 陈赢峰;林磊;范长杰 | 申请(专利权)人: | 网易(杭州)网络有限公司 |
主分类号: | A63F13/822 | 分类号: | A63F13/822;G06N3/08 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 310052 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 游戏 动作 处理 方法 装置 | ||
本发明实施例提供了一种游戏动作的处理方法和装置,所述方法包括:获取非玩家角色的当前游戏状态和动作空间;将所述当前游戏状态输入到预先训练的强化学习网络模型中得到强化策略,所述强化策略中包括各个所述游戏动作的第一选择概率;将所述动作空间输入到预先训练的辅助规则网络模型中得到辅助策略,所述辅助策略包括各个所述游戏动作的第二选择概率;根据所述强化策略和所述辅助策略确定目标策略,所述目标策略中包括各个所述游戏动作基于所述第一选择概率和所述第二选择概率生成的目标概率;根据各个所述游戏动作的目标概率从所述动作空间中筛选出目标游戏动作,控制非玩家角色执行所述目标游戏动作。本发明实施例能够提高玩家游戏体验。
技术领域
本发明涉及数据处理技术领域,特别是涉及一种游戏动作的处理方法和一种游戏动作的处理装置。
背景技术
强化学习(reinforcement learning),又称再励学习、评价学习,是一种重要的机器学习方法,在智能控制机器人及分析预测等领域有许多应用。通过强化学习训练的策略网络(Policy Network),所谓的策略网络,即建立一个神经网络模型,它可以通过观察环境状态,直接预测出目前最应该执行的策略(policy),执行这个策略可以获得现在的和未来最大的预期回报值(reward)。
强化学习在游戏中有着广泛的应用场景,通过强化学习训练出来的策略网络在游戏中拥有比产品人工编写的策略更高的智能,可以应对更复杂的游戏环境。例如使用强化学习生成的策略网络来控制游戏玩跳一跳,下围棋,玩王者荣耀等。目前,已经有不少游戏开始使用深度强化学习的技术来编写游戏中的人工智能(Artificial Intelligence,AI)。使用的技术包括强化学习、监督学习、模仿学习等。深度强化学习结合了强化学习和深度神经网络各自的优势,能够通过在游戏环境中不断的模拟获取经验样本,从而学会合理的决策网络。这种方式生成人工智能的质量好,灵活性强,并且比人工编写的方式效率更高。然而,单纯依靠强化学习并不能学习到游戏中的游戏规则,那么会导致决策失误。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种游戏动作的处理方法和相应的一种游戏动作的处理装置。
为了解决上述问题,本发明实施例公开了一种游戏动作的处理方法,所述方法包括:
获取非玩家角色的当前游戏状态和动作空间;所述动作空间包括至少一个游戏动作;
将所述当前游戏状态输入到预先训练的强化学习网络模型中得到强化策略,所述强化策略中包括各个所述游戏动作的第一选择概率;
将所述动作空间输入到预先训练的辅助规则网络模型中得到辅助策略,所述辅助策略包括各个所述游戏动作的第二选择概率;
根据所述强化策略和所述辅助策略确定目标策略,所述目标策略中包括各个所述游戏动作基于所述第一选择概率和所述第二选择概率生成的目标概率;
根据各个所述游戏动作的目标概率从所述动作空间中筛选出目标游戏动作,控制所述非玩家角色执行所述目标游戏动作。
优选地,所述强化学习网络模型通过如下方式进行训练:
获取第一样本数据;所述第一样本数据包括游戏状态、游戏动作、预期回报值和下一游戏状态;
采用所述第一样本数据训练所述强化学习网络模型。
优选地,所述辅助规则网络模型通过如下方式进行训练:
获取第二样本数据;所述第二样本数据包括游戏状态、游戏动作和动作执行结果;
采用所述第二样本数据训练所述辅助规则网络模型。
优选地,所述动作执行结果是控制所述非玩家角色执行所述目标游戏动作后得到的执行结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网易(杭州)网络有限公司,未经网易(杭州)网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811460098.3/2.html,转载请声明来源钻瓜专利网。