[发明专利]一种序贯同步博弈的双树蒙特卡洛搜索算法在审
申请号: | 201810811832.X | 申请日: | 2018-07-23 |
公开(公告)号: | CN108985458A | 公开(公告)日: | 2018-12-11 |
发明(设计)人: | 王骄;潘家鑫;黄湛钧 | 申请(专利权)人: | 东北大学 |
主分类号: | G06N5/00 | 分类号: | G06N5/00 |
代理公司: | 大连东方专利代理有限责任公司 21212 | 代理人: | 李洪福 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种用于解决大规模序贯同步博弈问题的双树蒙特卡洛搜索算法,相比于单树结构的序贯同步蒙特卡洛搜索,在保留同步特点的基础上,建立两棵树表示博弈双方的状态转移情况,使得博弈树的选择分支大大减少,在维持同步行动特点的同时,减小了博弈树的规模。消除了同步动作造成的双方动作组合爆炸问题,增加搜索深度,既保证了求解质量,又提高了求解效率。具体的技术手段包括:通过构建纳什均衡支撑库,解决同步的纳什均衡在线计算时间过长的问题;设计序贯同步博弈的深度策略网和深度估值网,实现序贯同步搜索的知识引导;研究面向环境的强化学习,解决状态转移或收益缺失下的决策问题。 | ||
搜索关键词: | 博弈 搜索算法 状态转移 博弈树 搜索 均衡 技术手段 决策问题 强化学习 求解效率 同步动作 同步搜索 选择分支 在线计算 知识引导 策略网 树结构 同步的 求解 构建 减小 收益 保留 爆炸 支撑 保证 研究 | ||
【主权项】:
1.一种序贯同步博弈的双树蒙特卡洛搜索算法,所述算法适用于一种搜索系统,该系统包括搜索服务器、搜索入口及搜索装置,其特征在于,所述算法包括以下步骤:步骤1‑1:建立序贯同步的双博弈树,分别对同步和序贯进行抽象,并对全局寻优进行建模,分别用A、B表示两个玩家,在一个环境下获得双方的动作序列,对手决策节点只能执行动作,对手的信息通过环境完成交互;步骤1‑2:针对完美信息和非完美信息情况下的博弈树节点性质和搜索算法进行区分,并分别进行改进;步骤1‑3:对序贯同步博弈进行知识增强;步骤1‑4:通过选择阶段、扩展阶段、估值阶段和更新阶段,循环迭代提高搜索效率。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810811832.X/,转载请声明来源钻瓜专利网。
- 上一篇:一种受优化算法启发的深度神经网络结构设计方法
- 下一篇:训练模型的方法和装置