[发明专利]一种博弈行为决策方法、装置及其相关设备在审
申请号: | 202010292937.6 | 申请日: | 2020-04-14 |
公开(公告)号: | CN111507475A | 公开(公告)日: | 2020-08-07 |
发明(设计)人: | 史新新;魏培培;易平;宛然;姜传民;曹佳;张安坤;周游;刘培锴 | 申请(专利权)人: | 杭州浮云网络科技有限公司 |
主分类号: | G06N5/04 | 分类号: | G06N5/04 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 张春辉 |
地址: | 310000 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 博弈 行为 决策 方法 装置 及其 相关 设备 | ||
本申请公开了一种博弈行为决策方法,包括当接收到决策指令时,采集当前博弈主体的已知信息;利用预设隐藏信息预测模型对所述已知信息进行处理,获得各隐藏信息组合以及各所述隐藏信息组合的存在概率;从所有所述隐藏信息组合中筛选获得所述存在概率超出预设存在概率的隐藏信息组合;对筛选后的各所述隐藏信息组合进行博弈树构建,获得最优博弈行为;该博弈行为决策方法可以有效提高博弈过程中博弈行为的决策效率,同时也提高了博弈结果的准确性。本申请还公开了一种博弈行为决策装置、系统以及计算机可读存储介质,均具有上述有益效果。
技术领域
本申请涉及人工智能技术领域,特别涉及一种博弈行为决策方法,还涉及一种博弈行为决策装置、系统和计算机可读存储介质。
背景技术
机器博弈被誉为人工智能的果蝇,一直处于人工智能研究的前沿,例如,扑克游戏是典型的非完全信息博弈,是人工智能研究中一个长期存在的挑战;斗地主因其随机性、具有隐藏信息、分支因子过大以及多玩家合作与竞争等特点,被视为游戏人工智能中的一个棘手问题。
对于非完备信息博弈,根据局况信息对隐藏信息进行准确推理,对获得最优博弈决策至关重要。然而,现有斗地主搜索算法解决方案中,大多对隐藏信息进行随机采样处理并进行博弈树构建,并没有对隐藏信息进行有效而准确的推理,而大量利用价值较低的隐藏信息将会造成计算资源的浪费,由此导致了较低的博弈行为决策效率以及不准确的博弈结果。
因此,如何有效提高博弈过程中博弈行为的决策效率,同时提高博弈结果的准确性是本领域技术人员亟待解决的问题。
发明内容
本申请的目的是提供一种博弈行为决策方法,该博弈行为决策方法可以有效提高博弈过程中博弈行为的决策效率,同时也提高了博弈结果的准确性;本申请的另一目的是提供一种博弈行为决策装置、系统和计算机可读存储介质,也具有上述有益效果。
为解决上述技术问题,第一方面,本申请提供了一种博弈行为决策方法,包括:
当接收到决策指令时,采集当前博弈主体的已知信息;
利用预设隐藏信息预测模型对所述已知信息进行处理,获得各隐藏信息组合以及各所述隐藏信息组合的存在概率;
从所有所述隐藏信息组合中筛选获得所述存在概率超出预设存在概率的隐藏信息组合;
对筛选后的各所述隐藏信息组合进行博弈树构建,获得最优博弈行为。
优选的,所述对筛选后的各所述隐藏信息组合进行博弈树构建,获得最优博弈行为,包括:
根据筛选后的各所述隐藏信息组合,利用预设监督学习行为策略模型进行相应的决策树构建,获得各所述隐藏信息组合对应的最优合法博弈行为;
根据预设权重数据对各所述最优合法博弈行为进行加权求和计算,获得各所述最优合法博弈行为对应的加权累计值;
将取值最大的所述加权累计值对应的最优合法博弈行为作为所述最优博弈行为。
优选的,所述根据筛选后的各所述隐藏信息组合,利用预设监督学习行为策略模型进行相应的决策树构建,获得各所述隐藏信息组合对应的最优合法博弈行为,包括:
根据所述隐藏信息组合,利用所述预设监督学习行为策略模型进行决策树构建,获得合法博弈行为;
通过执行所述合法博弈行为获得博弈结果;
根据所述博弈结果进行反向传播,获得所述最优合法博弈行为。
优选的,所述博弈行为决策方法还包括:
执行所述最优博弈行为,完成智能博弈。
第二方面,本申请还提供了一种博弈行为决策装置,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州浮云网络科技有限公司,未经杭州浮云网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010292937.6/2.html,转载请声明来源钻瓜专利网。