[发明专利]一种基于强化学习的爱恩斯坦棋博弈算法在审

专利信息
申请号: 201910375250.6 申请日: 2019-05-07
公开(公告)号: CN110119804A 公开(公告)日: 2019-08-13
发明(设计)人: 袁仪驰;吴蕾;姚超超;李学俊;陆梦宣;沈恒恒 申请(专利权)人: 安徽大学
主分类号: G06N3/04 分类号: G06N3/04;G06N3/08;A63F11/00
代理公司: 合肥方舟知识产权代理事务所(普通合伙) 34158 代理人: 朱荣
地址: 230601 安*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种爱恩斯坦棋中基于深度强化学习的自学习博弈算法,将BP神经网络运用到棋盘的价值评估方法以及在蒙特卡洛树搜索算法的动作选择策略中,借助强化学习方法自对弈学习规则,对棋盘的特征进行学习并逐渐调整网络参数,使得BP神经网络对于棋盘的价值评估以及下棋动作的策略计算逐渐准确,从而使整个博弈算法的性能逐渐提升。本发明将两个BP神经网络分别作为爱恩斯坦棋的价值估值函数和行为策略函数,将强化学习算法作为调整BP神经网络参数的进化机制,解决了目前爱恩斯坦棋训练集的水平受到人类水平限制的缺陷,提高了爱恩斯坦棋博弈水平的上限。
搜索关键词: 博弈算法 强化学习 棋盘 价值评估 强化学习算法 树搜索算法 策略计算 动作选择 进化机制 人类水平 网络参数 行为策略 博弈 训练集 自学习 对弈 下棋 学习
【主权项】:
1.一种基于强化学习的爱恩斯坦棋博弈算法,该博弈算法包括以下步骤:(1)神经网络初始化:系统初始化时创建神经网络;随机初始化或者从文件读取神经网络参数;初始化博弈树;初始化样本收集器;其中,所述的神经网络包括策略网络与价值网络;所述的策略网络包含输入层、隐层、输出层;所述的输入层包含42个神经元;所述的隐层有3层,每层包含20个神经元,激活函数为所述的输出层包含18个神经元,激活函数为Softmax;所述的价值网络包含输入层、隐层、输出层;所述的输入层包含36个神经元;所述的隐层有3层,每层包含20个神经元,激活函数为所述的输出层包含1个神经元,激活函数为(2)算法执行:当学习标志为真时,系统进行计算机自对弈模拟,对弈双方共用所述的神经网络,均使用APV‑MCTS算法进行动作选择;模拟完一盘棋后,所述的样本收集器会收集下棋动作的样本,并将收集的样本送往价值网络和策略网络的训练集,随机选取一定量的数据对神经网络进行训练,然后进行下一盘棋的模拟;其中,所述的APV‑MCTS算法每次Rollout的步骤分为选择动作、扩展、赋值、更新反馈;当执行APV‑MCTS算法时,所述的选择动作的公式为a=argmax(V(s')+U(s,a))。其中V(s')为基于状态s执行动作a后到达的状态s'的价值;其中c为探索系数,设定值为c=5;P(s,a)为策略网络计算输出的概率因子,a为基于当前状态s所产生的动作;N(s)为状态s访问次数;N(s')为基于状态s执行动作a后达到的状态s'的访问次数;所述的扩展是在搜索到博弈树的叶子节点LeafNode时,计算叶子节点所表示的棋盘状态能进行的所有下棋动作,以及这些动作执行后的棋盘状态,将这些状态作为新的节点扩展为叶子节点LeafNode的子节点;所述的赋值是在博弈树进行节点扩展以后,直接通过价值网络计算扩展后得到的节点所表示的棋盘特征来计算节点的价值V(s),s为当前棋盘状态;所述的更新反馈时V(s)的更新公式为V(s)=(V(s)*N(s)+Vleaf)/(N(s)+1),其中,所访问节点的访问次数N(s)=N(s)+1,Vleaf为最近一次Rollout所扩展选择的叶子节点Node的价值;当蒙特卡洛树搜索过程结束后,选择执行下棋动作公式为a=argmaxP(root,a),其中P(root,a)=Na^(1/t)/∑Nb^(1/t),其中Na代表表示动作a执行后所达棋盘状态s'的节点的访问次数;Nb表示基于此动作执行前的棋盘状态s通过执行合法下棋动作所能达到的所有棋盘状态的节点的访问次数之和;t为温度,当训练时t→0,以增加神经网络收敛时的稳定性,下棋时t=1;为确保训练时每种动作都会被尝试到,加入狄利克雷噪声,此时P(root,a)=(1‑ε)Pa+εηa,其中η~Dir(0.03),ε=0.25;训练时每次执行APV‑MCTS算法选择下棋动作后,样本收集器记录下棋前的棋盘状态和骰子点数,并将其分别转换为策略网络和价值网络的输入特征向量,并记录每个根节点的子节点的访问次数并将其转换为概率t存储在策略网络的训练集中作为样本的输出标签向量;每一盘游戏结束后,通过游戏结果对棋盘价值赋标签值z,赢家为1,输家为‑1,存入所述的价值网络的训练集中作为对应样本的输出标签向量;设一盘游戏的下棋步数为n,样本采集结束后,在价值网络和策略网络的训练集中分别随机选择n个样本对网络进行训练;所述的策略网络的损失函数为loss=‑t*logp+c||W||2,所述的价值网络的损失函数为loss=(z‑v)2+c*||W||2,L2正则化参数为c=0.0001;学习率α的初始值为0.01,使用学习率递减,每隔1000盘降为原来的1/10;当算法的博弈水平或者训练时间达到人为设定的设定阈值时,系统停止自对弈过程并停止数据的收集以及神经网络的训练,存储神经网络参数文件;当需要用到此算法进行博弈时,选用此算法策略的电脑玩家加载已存储的神经网络参数,并使用APV‑MCTS算法进行动作计算以选取下棋动作。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽大学,未经安徽大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910375250.6/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top