[发明专利]一种围棋上的搜索博弈树的策略改进方法有效
申请号: | 202110760145.1 | 申请日: | 2021-07-06 |
公开(公告)号: | CN113377779B | 公开(公告)日: | 2023-10-20 |
发明(设计)人: | 宁义明;杨木润;赵闯 | 申请(专利权)人: | 沈阳雅译网络技术有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/2457;G06F16/248 |
代理公司: | 沈阳新科知识产权代理事务所(特殊普通合伙) 21117 | 代理人: | 李晓光 |
地址: | 110004 辽宁省沈阳市*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 围棋 搜索 博弈 策略 改进 方法 | ||
1.一种围棋上的搜索博弈树的策略改进方法,其特征在于包括以下步骤:
1)以当前状态为根节点建立搜索树,树建立完成,其它所有节点隐式给出;
2)选择根节点的一个孩子节点进行模拟,如果有孩子节点还没有被模拟过,那么从根节点的孩子节点里面随机选择一个孩子进行模拟;如果所有孩子节点都被模拟过至少一次,那么选择UCB分树最高的孩子节点;
3)从选中的孩子节点开始模拟一直到叶子节点结束;模拟策略结合均匀采样和极小极大策略;
4)将模拟最后的结果反向传播到根节点,路径上所有叶子的动作价值函数Q值和N值被更新;
5)重复步骤1)-4)多次,最后选择的结果为UCB中利用项分数最高的节点。
2.根据权利要求1所述的围棋上的搜索博弈树的策略改进方法,其特征在于步骤2)中选择UCB分数最高的孩子节点是计算UCB并返回的孩子伪代码,具体如下:
第一项称为利用项,和过去的模拟情况有关,Q值取模拟结果为胜减模拟结果为负的差值;第二项称为探索项,和每个节点模拟的次数有关,博弈时动作被选中的次数越少,对应节点探索项的分数就越高;c为常数项;
上述公式平衡利用项和探索项之间的关系,即使最开始奖励值比较低的节点在足够的时间之后也可能被选中。
3.根据权利要求2所述的围棋上的搜索博弈树的策略改进方法,其特征在于:更新路径上节点的Q值和N值时使用虚拟的win值初始化Q,每个节点从较高的Q值,经模拟完成后下降,偏向于选择其它节点进行模拟,增加探索的几率,最终收敛到真实的Q值。
4.根据权利要求3所述的围棋上的搜索博弈树的策略改进方法,其特征在于:初始Q值可根据先验知识人工设置。
5.根据权利要求1所述的围棋上的搜索博弈树的策略改进方法,其特征在于:步骤3)中,每次搜索会涉及到多次模拟过程,当模拟次数足够多时,选择次优节点的概率收敛到0;将极小极大策略结合在一起,在己方行动时采用均匀采样,而在对方行动时采用极小极大算法有效避免陷阱状态。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳雅译网络技术有限公司,未经沈阳雅译网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110760145.1/1.html,转载请声明来源钻瓜专利网。