[发明专利]一种基于拆分动作空间的深度强化学习斗地主游戏方法在审
申请号: | 202210322815.6 | 申请日: | 2022-03-30 |
公开(公告)号: | CN114841311A | 公开(公告)日: | 2022-08-02 |
发明(设计)人: | 孔燕;芮烨锋 | 申请(专利权)人: | 南京信息工程大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;A63F1/00 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 曹坤 |
地址: | 210044 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 拆分 动作 空间 深度 强化 学习 地主 游戏 方法 | ||
1.一种基于拆分动作空间的深度强化学习斗地主游戏方法,其特征在于,具体操作步骤如下:
(1)、对斗地主游戏空间进行拆分;
(2)、对样本数据进行编码;
(3)、构建主牌DQN网络,定义主牌奖励函数;
(4)、构建副牌DQN网络,定义副牌奖励函数;
(5)、训练未进行动作空间拆分和奖励函数设计的DQN网络,确保该DQN网络的结构和设置于主牌DQN和副牌DQN一致;
(6)、将主副牌DQN智能体和单一DQN智能体置于地主、下家农民和上家农民的位置上与随机策略玩家进行模拟游戏,以胜率作为标准进行比较,将比较数据进行可视化展示。
2.根据权利要求1所述的一种基于拆分动作空间的深度强化学习斗地主游戏方法,其特征在于,
在所述步骤(1)中,对斗地主游戏空间进行拆分具体是:
(1.1)、根据斗地主游戏规则,区分一个出牌为主牌和副牌两部分;
(1.2)、遍历斗地主游戏所有的出牌可能性,拆分成主牌和副牌,进而构建主牌动作空间和副牌动作空间。
3.根据权利要求1所述的一种基于拆分动作空间的深度强化学习斗地主游戏方法,其特征在于,
在所述步骤(2)中,对样本数据进行编码具体是:
使用一个5*15的矩阵对牌信息进行编码表示,列表示牌的点数,从3到大王;行表示数量,从0到4;
选择以当前手牌信息、最近三次出牌信息、已经出了的牌和还剩下的牌作为状态信息,拼接成一个6*5*15的矩阵;
将斗地主游戏数据处理为s,a,r,s’,构建s,a,r,s’样本集,
其中,a表示是一个集合,包括主牌动作和副牌动作;s表示一个6*5*15的one-hot矩阵;r表示一个集合,包括采取主牌动作后的即时奖励和采取副牌动作后的即时奖励;s’表示一个6*5*15的one-hot矩阵,表示转移到的下一个状态。
4.根据权利要求1所述的一种基于拆分动作空间的深度强化学习斗地主游戏方法,其特征在于,
在所述步骤(3)中,构建主牌DQN网络,定义主牌奖励函数的具体步骤如下:
(3.1)、收集并处理高水平人类玩家的游戏数据为特征数据和标签二元组:收集高水平人类玩家的斗地主游戏数据,并以当前手牌信息为特征数据,出牌动作处理为one-hot编码形式作为标签数据,形成以特征数据,标签数据二元组为元素的集合作为专家数据集合;
(3.2)、构建主牌奖励网络;将专家数据放入主牌奖励网络中训练,即使用高水平人类玩家游戏数据进行训练;网络的输入为玩家的手牌信息,输出为玩家在该手牌信息下,采用动作的可能性;
主牌奖励网络训练好后,以一个状态下采取该动作的softmax值作为该动作的即时奖励;
(3.3)、构建主牌DQN网络,使用主牌奖励网络得出样本中一个状态下采取一个动作对应的奖励值,将经过主牌奖励网络更新后的主牌样本数据输入到主牌经验池中,更新为新的样本数据,训练主牌DQN网络。
5.根据权利要求1所述的一种基于拆分动作空间的深度强化学习斗地主游戏方法,其特征在于,
在所述步骤(4)中,构建副牌DQN网络,定义副牌奖励函数是根据副牌本身的点数和副牌在其他可能性牌组出现的次数定义副牌奖励函数,其具体步骤如下:
(4.1)、定义副牌奖励规则,其具体公式为:
reward=k*e-(a+b)
式中,a表示该副牌在其他可能动作中出现的次数,b表示该副牌组合牌面大小的总和,k表示常数超参数;
(4.2)、构建副牌DQN网络,将经过副牌奖励函数规则更新后斗地主游戏样本的副牌样本数据,并作为副牌DQN网络的输入,通过新的深度强化学习框架进行训练,训练副牌DQN网络。
6.根据权利要求1所述的一种基于拆分动作空间的深度强化学习斗地主游戏方法,其特征在于,
在所述步骤(5)中,确保该DQN网络的结构和设置于主牌DQN和副牌DQN一致具体是构建单一的DQN网络,不拆分动作空间,不构建奖励函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息工程大学,未经南京信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210322815.6/1.html,转载请声明来源钻瓜专利网。