[发明专利]一种围棋上的搜索博弈树的策略改进方法有效

专利信息
申请号: 202110760145.1 申请日: 2021-07-06
公开(公告)号: CN113377779B 公开(公告)日: 2023-10-20
发明(设计)人: 宁义明;杨木润;赵闯 申请(专利权)人: 沈阳雅译网络技术有限公司
主分类号: G06F16/22 分类号: G06F16/22;G06F16/2457;G06F16/248
代理公司: 沈阳新科知识产权代理事务所(特殊普通合伙) 21117 代理人: 李晓光
地址: 110004 辽宁省沈阳市*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 围棋 搜索 博弈 策略 改进 方法
【权利要求书】:

1.一种围棋上的搜索博弈树的策略改进方法,其特征在于包括以下步骤:

1)以当前状态为根节点建立搜索树,树建立完成,其它所有节点隐式给出;

2)选择根节点的一个孩子节点进行模拟,如果有孩子节点还没有被模拟过,那么从根节点的孩子节点里面随机选择一个孩子进行模拟;如果所有孩子节点都被模拟过至少一次,那么选择UCB分树最高的孩子节点;

3)从选中的孩子节点开始模拟一直到叶子节点结束;模拟策略结合均匀采样和极小极大策略;

4)将模拟最后的结果反向传播到根节点,路径上所有叶子的动作价值函数Q值和N值被更新;

5)重复步骤1)-4)多次,最后选择的结果为UCB中利用项分数最高的节点。

2.根据权利要求1所述的围棋上的搜索博弈树的策略改进方法,其特征在于步骤2)中选择UCB分数最高的孩子节点是计算UCB并返回的孩子伪代码,具体如下:

第一项称为利用项,和过去的模拟情况有关,Q值取模拟结果为胜减模拟结果为负的差值;第二项称为探索项,和每个节点模拟的次数有关,博弈时动作被选中的次数越少,对应节点探索项的分数就越高;c为常数项;

上述公式平衡利用项和探索项之间的关系,即使最开始奖励值比较低的节点在足够的时间之后也可能被选中。

3.根据权利要求2所述的围棋上的搜索博弈树的策略改进方法,其特征在于:更新路径上节点的Q值和N值时使用虚拟的win值初始化Q,每个节点从较高的Q值,经模拟完成后下降,偏向于选择其它节点进行模拟,增加探索的几率,最终收敛到真实的Q值。

4.根据权利要求3所述的围棋上的搜索博弈树的策略改进方法,其特征在于:初始Q值可根据先验知识人工设置。

5.根据权利要求1所述的围棋上的搜索博弈树的策略改进方法,其特征在于:步骤3)中,每次搜索会涉及到多次模拟过程,当模拟次数足够多时,选择次优节点的概率收敛到0;将极小极大策略结合在一起,在己方行动时采用均匀采样,而在对方行动时采用极小极大算法有效避免陷阱状态。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳雅译网络技术有限公司,未经沈阳雅译网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110760145.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top