[发明专利]一种用于大菠萝扑克二三轮摆法的深度增强学习方法在审
申请号: | 201910124932.X | 申请日: | 2019-02-20 |
公开(公告)号: | CN109871943A | 公开(公告)日: | 2019-06-11 |
发明(设计)人: | 袁文广;韦佳;张加佳 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N5/00 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 李斌 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种用于大菠萝扑克二三轮摆法的深度增强学习方法,该方法无需专家数据,结合神经网络和蒙特卡洛树搜索算法,让智能体在自我博弈中学习决策规则、不断提升收益。本方法以二三轮牌面为根节点,在给定迭代次数内,根据先验概率和平均收益选取叶节点,如果该节点未被扩展,将牌面信息编码输入神经网络得到先验概率和估值并扩展节点,用所选叶节点估值更新所有父节点的收益。迭代结束后对根节点所有摆法的采样次数进行归一化,选取概率最大摆法进入下一轮决策。所有决策完成后收集训练数据更新网络参数。本方法在进行大量自博弈学习后大比分战胜未学习网络,为研究非完备信息博弈提供一种通用可行的方法。 | ||
搜索关键词: | 博弈 先验概率 根节点 菠萝 牌面 学习 扑克 收益 结合神经网络 输入神经网络 树搜索算法 迭代结束 决策规则 网络参数 信息编码 训练数据 专家数据 父节点 归一化 叶节点 智能体 采样 迭代 更新 选叶 决策 通用 概率 网络 研究 | ||
【主权项】:
1.一种用于大菠萝扑克二三轮摆法的深度增强学习方法,其特征在于,所述的深度增强学习方法包括下列步骤:S1、以大菠萝扑克第二轮或第三轮牌面为根节点构建带有神经网络的蒙特卡洛搜索树,在给定采样迭代次数niter内,根据先验概率和平均收益选取可能获益最大的叶节点,其中叶节点选取的判断根据下式得到:I(s,a)=Q(s,a)+U(s,a)Q(s,a)=1/N(s,a)∑s′|s,a→s′V(s′)式中,I(s,a)、U(s,a)、Q(s,a)分别为牌面状态s采取手牌摆法a的最大收益估计值、上置信区间和行动估值,P(s,a)为存储在节点上每种摆法的先验概率,N(s,a)为s采取摆法a的采样次数,∑bN(s,b)为s所有摆法b的采样次数总和,s′|s,a→s′为状态s采取摆法a后进入状态s’,∑s′|s,a→s′V(s′)为s采取摆法a的收益总和;S2、如果选中叶节点未被扩展,将牌面信息编码输入神经网络得到先验概率向量和估值并扩展节点,否则进入下一步骤,其中先验概率向量p和估值v根据下式计算:(p,v)=fθ(s)式中,f为深度神经网络,θ为深度神经网络的参数,v为收益估值,p为先验概率向量,s为将当前牌面状态和手牌按特定牌面编码方式得到的张量;S3、用所选叶节点估值回溯更新所有父节点的收益,其中回溯过程根据下式计算:N(s,a)=N(s,a)+1W(s,a)=W(s,a)+vQ(s,a)=W(s,a)/N(s,a)式中,N(s,a)、W(s,a)、Q(s,a)分别为状态s采取摆法a的采样次数、总收益和平均收益,v为叶节点的收益估值;S4、迭代上述步骤S1、S2和S3共niter次后,对根节点所有摆法的采样次数进行归一化,选取概率最大摆法进入下一轮决策,其中归一化概率根据下式计算:式中,s0为根节点状态,N(s0,a)、π(a|s0)分别为根节点选取摆法a的采样次数、概率向量,∑bN(s0,b)为根节点所有摆法b的采样次数总和,其中选取概率最大摆法公式计算如下:a=argmax(π)式中,a为选中手牌摆法;S5、所有决策完成后收集网络输入、搜索概率和决策收益更新网络参数得到θ′,比较更新后的神经网络f′θ和未更新的神经网络fθ的性能,选取得分多的网络跳至步骤S1,循环重复nupdate次后,深度增强学习方法结束。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910124932.X/,转载请声明来源钻瓜专利网。