[发明专利]一种序贯同步博弈的双树蒙特卡洛搜索算法在审
申请号: | 201810811832.X | 申请日: | 2018-07-23 |
公开(公告)号: | CN108985458A | 公开(公告)日: | 2018-12-11 |
发明(设计)人: | 王骄;潘家鑫;黄湛钧 | 申请(专利权)人: | 东北大学 |
主分类号: | G06N5/00 | 分类号: | G06N5/00 |
代理公司: | 大连东方专利代理有限责任公司 21212 | 代理人: | 李洪福 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 博弈 搜索算法 状态转移 博弈树 搜索 均衡 技术手段 决策问题 强化学习 求解效率 同步动作 同步搜索 选择分支 在线计算 知识引导 策略网 树结构 同步的 求解 构建 减小 收益 保留 爆炸 支撑 保证 研究 | ||
本发明公开了一种用于解决大规模序贯同步博弈问题的双树蒙特卡洛搜索算法,相比于单树结构的序贯同步蒙特卡洛搜索,在保留同步特点的基础上,建立两棵树表示博弈双方的状态转移情况,使得博弈树的选择分支大大减少,在维持同步行动特点的同时,减小了博弈树的规模。消除了同步动作造成的双方动作组合爆炸问题,增加搜索深度,既保证了求解质量,又提高了求解效率。具体的技术手段包括:通过构建纳什均衡支撑库,解决同步的纳什均衡在线计算时间过长的问题;设计序贯同步博弈的深度策略网和深度估值网,实现序贯同步搜索的知识引导;研究面向环境的强化学习,解决状态转移或收益缺失下的决策问题。
技术领域
本发明涉及机器博弈搜索领域,尤其涉及一种使用双树结构的蒙特卡洛搜索算法。
背景技术
蒙特卡洛方法,也称统计模拟方法,是二十世纪四十年代中期由于科学技术的发展和电子计算机的发明,而被提出的一种以概率统计理论为指导的一类非常重要的数值计算方法。是指使用随机数(或更常见的伪随机数)来解决很多计算问题的方法。二十世纪七十年代,蒙特卡洛方法的理论研究达到顶峰。目前为止,对于蒙特卡洛理论和方法的研究,美国的理论和实践研究仍处于领先地位。现如今许多其他的国家也加入了蒙特卡洛的研究中。蒙特卡洛的研究有力推动了国内外蒙特卡洛方法的应用和发展。它不但用于解决许多复杂的科学方面的问题,也被项目管理人员经常使用,具有很强的适应性。
针对序贯同步博弈问题,现有的搜索方法只能处理复杂度很低的博弈问题,这是由于其博弈树的节点数量在可接受的范围内,所以可以有效求解。然而,在规模较大的情况下如果直接用博弈树搜索方法求解,由于行动组合的数量巨大,同时树内节点随深度的增加呈指数级上升,必将导致组合爆炸的问题。所以现有的搜索方法通常将其先约简为序贯非同步问题,再用极大极小搜索算法求解,但是由于问题简化严重导致求解质量下降。
发明内容
针对现技术存在的不足,本发明要解决的技术问题是提出一种序贯同步博弈的双树蒙特卡洛树搜索算法来有效解决了大规模序贯同步博弈问题出现的双方动作组合爆炸问题。同时针对此博弈树的搜索方法,通过对选择策略、展开规则、回溯更新等关键技术的改进,实现完善的双树结构搜索方法。通过实现均衡支撑库、双输出策略网、环境知识等学习,提升序贯同步博弈求解质量。
本发明的技术方案是这样实现的:
一种序贯同步博弈的双树蒙特卡洛搜索算法,所述算法适用于一种搜索系统,所述系统包括搜索服务器、搜索入口及搜索装置,所述算法包括以下步骤:
步骤1-1:建立序贯同步的双博弈树,分别对同步和序贯进行抽象,并对全局寻优进行建模,分别用A、B表示两个玩家,在一个环境下获得双方的动作序列,对手决策节点只能执行动作,对手的信息通过环境完成交互;
步骤1-2:针对完美信息和非完美信息情况下的博弈树节点性质和搜索算法进行区分,并分别进行改进;
步骤1-3:对序贯同步博弈进行知识增强;
步骤1-4:通过选择阶段、扩展阶段、估值阶段和更新阶段,循环迭代提高搜索效率。
进一步的,上述步骤1-3中所述知识增强的方法步骤为:
步骤2-1:离线计算同步博弈问题的纳什均衡解,构建纳什均衡计算的支撑库;
步骤2-2:构建序贯同步博弈问题深度策略-估值网络,实现领域知识的知识学习;
步骤2-3:建立面向环境模型的学习方法,实现环境信息无法完全获知的情况下博弈问题的求解。
更进一步的,上述步骤2-2中所述的知识学习,包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810811832.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种受优化算法启发的深度神经网络结构设计方法
- 下一篇:训练模型的方法和装置