[发明专利]一种游戏控制方法及装置、存储介质在审
申请号: | 202010627214.7 | 申请日: | 2020-07-01 |
公开(公告)号: | CN113877202A | 公开(公告)日: | 2022-01-04 |
发明(设计)人: | 夏宗涛 | 申请(专利权)人: | 中移(苏州)软件技术有限公司;中国移动通信集团有限公司 |
主分类号: | A63F13/49 | 分类号: | A63F13/49;A63F13/55;G06N3/04;G06N3/06 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 侯艳华;张颖玲 |
地址: | 215163 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 游戏 控制 方法 装置 存储 介质 | ||
本发明公开了一种游戏控制方法及装置、存储介质,方法包括:当检测到目标视频游戏开始时,获取当前视频帧;基于当前视频帧和预设在线值网络,得到当前灰度图和当前动作,并控制目标视频游戏执行当前动作,得到当前奖赏值和下一步视频帧,进而得到当前五元组并保存至预设数据库;当得到的当前五元组的个数大于或等于预设样本个数、且预设训练总轮数大于零时,基于预设目标值网络和预设数据库,对预设在线值网络进行参数更新;当前五元组的个数为预设训练总步长的整数倍时,利用预设在线值网络的参数对预设目标值网络的参数进行替换,并对预设训练总轮数减一;将下一步视频帧作为当前视频帧,继续上述过程。通过本发明,能提升对事件的控制效果。
技术领域
本发明涉及动态优化技术,尤其涉及一种游戏控制方法及装置、存储介质。
背景技术
目前,深度强化学习作为人工智能研究的热点领域,其将深度学习的感知能力和强化学习的决策能力相结合,为动态优化相关的事件(例如,视频游戏)提供了一种新的控制思路。
由于深度强化学习存在不稳定和过估计的问题,相关技术在视频游戏的控制中采用一种深度Q网络的改进算法,试图缓解深度强化学习算法的过估计问题。然而,由于Q-Learning算法是异策略算法,这本身就会增加深度强化学习算法的不稳定性,并且,每次都采用贪婪策略(greedy策略)选择在视频游戏中所执行的动作,每次都用Max算子选择最优动作,反而会放大深度强化学习算法的过估计问题。因此,深度强化学习中的不稳定和过估计问题仍旧存在,从而降低了事件的控制效果。
发明内容
本发明提出一种游戏控制方法及装置、存储介质,旨在提升了对事件的控制效果。
本发明的技术方案是这样实现的:
本发明实施例提供了一种游戏控制方法,所述方法包括:
当检测到目标视频游戏开始时,获取当前视频帧;
基于所述当前视频帧和预设在线值网络,得到当前灰度图和当前动作,并控制所述目标视频游戏执行所述当前动作,得到当前奖赏值和下一步视频帧;
基于所述当前灰度图、所述当前动作、所述当前奖赏值、所述下一步视频帧和所述预设在线值网络,得到当前五元组并保存至预设数据库;
当得到的当前五元组的个数大于或等于预设样本个数、且预设训练总轮数大于零时,基于预设目标值网络和所述预设数据库,对所述预设在线值网络进行参数更新;
当所述得到的当前五元组的个数为预设训练总步长的整数倍时,利用所述预设在线值网络的参数对所述预设目标值网络的参数进行替换,并对所述预设训练总轮数减一;
将所述下一步视频帧作为所述当前视频帧,继续基于所述当前视频帧和预设在线值网络,得到当前灰度图和当前动作。
上述方案中,所述预设在线值网络和所述预设目标值网络均为三个卷积层和两个全连接层组成的网络。
上述方案中,所述基于所述当前视频帧和预设在线值网络,得到当前灰度图和当前动作,包括:
对所述当前视频帧进行灰度化处理,得到所述当前灰度图;
将所述当前灰度图和预设待选动作中的每个待选动作,输入所述预设在线值网络,得到所述每个待选动作对应的当前评价值;
根据所述每个待选动作对应的当前评价值,从所述预设待选动作中确定当前评价值最大的最优动作;
利用∈-greedy策略,从所述预设待选动作或所述当前评价值最大的最优动作中得到所述当前动作。
上述方案中,所述基于所述当前灰度图、所述当前动作、所述当前奖赏值、所述下一步视频帧和所述预设在线值网络,得到当前五元组并保存至预设数据库,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中移(苏州)软件技术有限公司;中国移动通信集团有限公司,未经中移(苏州)软件技术有限公司;中国移动通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010627214.7/2.html,转载请声明来源钻瓜专利网。