[发明专利]一种新型序贯同步博弈的单树蒙特卡洛搜索方法在审
申请号: | 201910996071.4 | 申请日: | 2019-10-18 |
公开(公告)号: | CN110727870A | 公开(公告)日: | 2020-01-24 |
发明(设计)人: | 王骄;迟森;周婷婷;高庆龙;潘家鑫;王中岩 | 申请(专利权)人: | 东北大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06N3/04;G06N3/08 |
代理公司: | 21212 大连东方专利代理有限责任公司 | 代理人: | 王思宇;李馨 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种新型序贯同步博弈的单树蒙特卡洛搜索方法,具体过程包括:步骤1:构建单博弈树结构:每一层的所有节点均对应同一个执行方且每个节点表示当前局面的博弈状态;除第一层外的奇数层为状态转移层,偶数层为状态传递层;步骤2:在同一博弈状态下,参与博弈的两个执行方依次进行选择过程和扩展过程;其中,具体步骤为博弈一方进行选择和扩展,然后博弈另一方进行选择和扩展,在迭代搜索过程中,当参与博弈的双方均作出一次动作选择后,才进行状态转移;步骤3:估值阶段;步骤4:更新阶段:步骤5:迭代进行步骤2至步骤4,直至完成设定的搜索时间或者迭代次数。本发明解决了现有双树结构方法存在博弈树节点信息同步的的问题。 | ||
搜索关键词: | 博弈 状态转移 树结构 迭代 搜索 迭代搜索 节点信息 选择过程 一次动作 状态传递 博弈树 第一层 偶数层 奇数层 同步的 单树 构建 更新 | ||
【主权项】:
1.一种新型序贯同步博弈的单树蒙特卡洛搜索方法,其特征在于,具体过程包括:/n步骤1:根据当前博弈状态,针对参与博弈的两个执行方构建单博弈树结构;/n在单博弈树结构中,每一层的所有节点均对应同一个执行方且每个节点表示当前局面的博弈状态,对应的节点在单博弈树结构的各层交替出现,每一条边表示一个合法动作,每一条边均连接一子节点;/n单博弈树结构的第一层为根节点,除第一层外的奇数层为状态转移层,偶数层为状态传递层;状态传递层表示在该层中,节点的状态与其父节点的状态保持一致;状态转移层表示在该层中,节点的博弈状态是根据已选择的组合动作进行状态转移后得到的博弈状态;/n位于状态转移层的节点,存储了本身的博弈状态信息以及下一状态传递层和下一转移传递层的搜索收益信息;位于状态传递层的节点,其博弈状态信息和搜索信息与父节点保持一致;节点的博弈状态信息主要包括能够描述当前整个博弈局面的关键信息;节点的搜索收益信息主要包括能够反应当前局面收益的关键信息;/n步骤2:在同一博弈状态下,参与博弈的两个执行方依次进行选择过程和扩展过程;/n其中,具体步骤为博弈一方进行选择和扩展,然后博弈另一方进行选择和扩展,在上述过程中,没有进行状态转移,在迭代搜索过程中,当参与博弈的双方均作出一次动作选择后,才进行状态转移;/n选择过程为,执行方根据博弈方选择方法,计算出合法动作的分值,选择对自身最有利的动作,选择过程由根节点开始递归选择最优的子节点,直至选择到对应该执行方的子节点;/n若经过选择过程最终选择到的子节点已经被访问过,则需要对单博弈树结构进行扩展创建该子节点的下一层子节点;若选择到的子节点没有被访问过,则进行下一个执行方的选择过程;扩展过程为,单博弈树结构根据当前执行方在当前博弈状态下的合法动作进行扩展相应数量的边和节点;/n当两个执行方均进行了选择过程后则进入估值阶段;/n步骤3:估值阶段:对节点状态进行估值,对当前的状态进行评估,获取子节点的估值;/n步骤4:更新阶段:更新选择路径上的节点信息,由于状态传递层中节点的搜索信息存储在状态转移层相应的父节点中,因而只更新状态转移层中已选择节点的搜索信息,从而实现更新过程;更新选择路径上状态转移层中节点的动作信息,包括平均收益和访问次数;/n步骤5:迭代进行步骤2至步骤4,直至完成设定的搜索时间或者迭代次数。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910996071.4/,转载请声明来源钻瓜专利网。