[发明专利]非完备信息下同步博弈蒙特卡洛搜索多树变种方法有效
申请号: | 201910860992.8 | 申请日: | 2019-09-11 |
公开(公告)号: | CN110489668A | 公开(公告)日: | 2019-11-22 |
发明(设计)人: | 潘家鑫;黄湛钧;高庆龙;王骄 | 申请(专利权)人: | 东北大学 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06F16/22;G06F16/2455;A63F13/70;A63F13/67;A63F13/58 |
代理公司: | 21212 大连东方专利代理有限责任公司 | 代理人: | 姜玉蓉;李洪福<国际申请>=<国际公布> |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 博弈树 搜索 采样内容 经验信息 剩余信息 搜索结果 博弈 信息集 变种 采样 映射 筛选 预测 合法 | ||
本发明公开了一种非完备信息下同步博弈蒙特卡洛搜索多树变种方法,包括:S1:对于玩家的策略将根据已知的经验信息推测剩余信息;S2:在博弈树展开前对所有信息进行采样,筛选合法动作;S3:在博弈树搜索后,将每个博弈树的搜索结果再进行训练,预测出最终优势策略:S4:根据不同的玩家设置两棵博弈树,其中不同玩家的博弈树之间是互相联系,每轮对多个博弈树同时展开,展开前的采样内容相同,每个从玩家角度开始展开动作是根据自己的信息集,对于对手的动作直接根据其他树映射获得。
技术领域
本发明涉及机器博弈技术领域,尤其涉及非完备信息下同步博弈蒙特卡洛搜索多树变种方法。
背景技术
机器博弈研究如何让计算机模拟人类进行游戏对弈,是人工智能领域最具挑战性的研究方向之一。许多著名学者都曾涉足该研究领域,如计算机之父冯·诺依曼(VonMeunann)、人工智能之父约翰·麦卡锡(John McCarthy)、信息论创始人香农(C.E.Shannon)、控制论创始人维纳(Norbert Wiener)和著名计算机学家阿兰·图灵(A.Turing)等。机器博弈是对人类博弈的抽象与精炼,是简单方便、经济实用,又内涵丰富、变化无穷的逻辑思维研究载体,为人工智能提供了一个非常理想的实验床,被誉为“人工智能的果蝇”。除理论意义外,机器博弈还具有广泛的应用价值,特别是在作战模拟、城市规划、网络安全等领域。然而,如何实现博弈决策的智能化,。。。这些问题的解决都依赖机器博弈理论与技术的发展。
博弈树搜索技术是求解机器博弈问题最为有效的方法,即在博弈树中动态搜索最佳路径,以达到综合收益最大化。然而,实际博弈问题的博弈树规模非常庞大,导致博弈树寻优异常困难,如国际象棋博弈树复杂度为10123,围棋的博弈树复杂度高达10360,而地球上全部原子的数目据估计才有10132。此外,在非完美信息博弈中,对手信息的缺失使博弈树节点状态高度不确定,导致博弈树展开和求解变得更加困难。总之,复杂环境下的机器博弈具有状态空间大、信息未知、行动收益不确定等特点,虽然具有更广阔的应用前景,但也面临着巨大挑战。
基于采样的蒙特卡洛树搜索主要用于解决更高复杂度的非完美信息博弈问题。对手建模也是非完美信息博弈的重要研究内容,在非完美机器博弈中,对手的状态信息与对手行为之间有很大的联系。其通过建立对手模型预测对手状态、行为等,缩小状态空间,降低信息不确定度。
目前非完美信息博弈的研究主要集中于牌类问题,大都使用精炼及均衡探寻的求解方法,其缺陷在于当对方偏离均衡策略或作弊时无法得到最优策略,且仅限于双人零和博弈,对于多人博弈、合作式博弈,同步博弈等问题现有的算法仍存在许多不足。所以采用多树按不同玩家的角度对其建模,并根据博弈过程中的观测信息和隐藏信息对知识进行学习和提取,筛选有效信息,补充非完美信息下的信息缺失,对对手状态和决策进行有效估计和预测,完善非完美信息下同步蒙特卡洛搜索变种的结构,对博弈树的策略进行补充。
发明内容
根据现有技术存在的问题,本发明公开了一种非完备信息下同步博弈蒙特卡洛搜索多树变种方法,具体包括如下步骤:
S1:对于玩家的策略将根据已知的经验信息推测剩余信息,筛选合法动作,再将完美信息博弈对手策略估计方式转移到非完美信息博弈中推测和观察到的信息中,在搜索之外对每个状态下对手的习惯动作进行记录,建立策略辅助函数;
S2:在博弈树展开前对所有信息进行采样,筛选合法动作:将对手在之前的博弈过程中执行的动作进行记录,根据实际需要设定阈值,将在该阈值内的动作收益筛选出来,对玩家和对手收益较高的动作进行标记,建立一个动作信息库并存储:
S3:在博弈树搜索后,将每个博弈树的搜索结果再进行训练,预测出最终优势策略:将搜索的结果进行结合,将这些从不同角度玩家和不同采样动作的博弈树的结果进行比较,使用趋同决策法选取最后反应所有博弈树求解结果倾向的结果值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910860992.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于用户画像的智能公文流转技术
- 下一篇:一种信息推送方法及装置