[发明专利]一种围棋上的搜索博弈树的策略改进方法有效

申请号：	202110760145.1	申请日：	2021-07-06
公开（公告）号：	CN113377779B	公开（公告）日：	2023-10-20
发明（设计）人：	宁义明;杨木润;赵闯	申请（专利权）人：	沈阳雅译网络技术有限公司
主分类号：	G06F16/22	分类号：	G06F16/22;G06F16/2457;G06F16/248
代理公司：	沈阳新科知识产权代理事务所(特殊普通合伙) 21117	代理人：	李晓光
地址：	110004 辽宁省沈阳市***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种围棋搜索博弈策略改进方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种围棋上的搜索博弈树的策略改进方法，其特征在于包括以下步骤：

1)以当前状态为根节点建立搜索树，树建立完成，其它所有节点隐式给出；

2)选择根节点的一个孩子节点进行模拟，如果有孩子节点还没有被模拟过，那么从根节点的孩子节点里面随机选择一个孩子进行模拟；如果所有孩子节点都被模拟过至少一次，那么选择UCB分树最高的孩子节点；

3)从选中的孩子节点开始模拟一直到叶子节点结束；模拟策略结合均匀采样和极小极大策略；

4)将模拟最后的结果反向传播到根节点，路径上所有叶子的动作价值函数Q值和N值被更新；

5)重复步骤1)-4)多次，最后选择的结果为UCB中利用项分数最高的节点。

2.根据权利要求1所述的围棋上的搜索博弈树的策略改进方法，其特征在于步骤2)中选择UCB分数最高的孩子节点是计算UCB并返回的孩子伪代码，具体如下：

第一项称为利用项，和过去的模拟情况有关，Q值取模拟结果为胜减模拟结果为负的差值；第二项称为探索项，和每个节点模拟的次数有关，博弈时动作被选中的次数越少，对应节点探索项的分数就越高；c为常数项；

上述公式平衡利用项和探索项之间的关系，即使最开始奖励值比较低的节点在足够的时间之后也可能被选中。

3.根据权利要求2所述的围棋上的搜索博弈树的策略改进方法，其特征在于：更新路径上节点的Q值和N值时使用虚拟的win值初始化Q，每个节点从较高的Q值，经模拟完成后下降，偏向于选择其它节点进行模拟，增加探索的几率，最终收敛到真实的Q值。

4.根据权利要求3所述的围棋上的搜索博弈树的策略改进方法，其特征在于：初始Q值可根据先验知识人工设置。

5.根据权利要求1所述的围棋上的搜索博弈树的策略改进方法，其特征在于：步骤3)中，每次搜索会涉及到多次模拟过程，当模拟次数足够多时，选择次优节点的概率收敛到0；将极小极大策略结合在一起，在己方行动时采用均匀采样，而在对方行动时采用极小极大算法有效避免陷阱状态。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于沈阳雅译网络技术有限公司，未经沈阳雅译网络技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110760145.1/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载