[发明专利]数据处理方法、装置、电子设备及存储介质有效
申请号: | 202010036509.7 | 申请日: | 2020-01-14 |
公开(公告)号: | CN111265878B | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 吕有为;钟涛;毛建博 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | A63F13/60 | 分类号: | A63F13/60;G06N5/04 |
代理公司: | 深圳市隆天联鼎知识产权代理有限公司 44232 | 代理人: | 叶虹 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 电子设备 存储 介质 | ||
1.一种数据处理方法,其特征在于,设置多个相同的人工智能体分别按照所述方法相互之间进行自对弈,所述方法包括:
基于先验信息,对以目标玩家的玩家决策节点为根节点的博弈树进行搜索,预设次数的搜索结束后,控制所述目标玩家在当前对局状态以预设第一概率执行收益值最高的第一候选决策,以预设第二概率随机执行一第一候选决策,所述第一概率与所述第二概率之和为1,其中,所述先验信息包括估牌先验信息与决策预测先验信息;
当所述当前对局结束时,获取所述当前对局的真实对局数据;
基于所述真实对局数据对所述先验信息进行更新;
其中,所述估牌先验信息包括在当前对局状态下的已公开手牌数据,基于先验信息,对以目标玩家的玩家决策节点为根节点的博弈树进行搜索,包括:
获取当前对局中目标玩家的第一手牌数据;
基于所述已公开手牌数据与所述第一手牌数据,确定在当前对局状态下的未公开手牌数据;
将其他玩家当前所打出的手牌作为输入,调取统计模型的概率分布,确定所述其他玩家当前持有手牌的概率分布,其中,预先基于监督学习的方法,使用已有的真实对局数据训练得到所述统计模型,所述统计模型的概率分布用于描述玩家在打出手牌的情况下,当前所持有手牌的概率分布;
结合所述未公开手牌数据与所述第一手牌数据对所述其他玩家当前持有手牌的概率分布进行约束,获取其他玩家的第二手牌数据;
基于决策预测先验信息、所述第一手牌数据与所述第二手牌数据,沿所述博弈树搜索所述目标玩家的各第一候选决策的可能对局结果;
对所述可能对局结果的搜索路径进行反向传播,更新搜索路径中各节点的收益值。
2.根据权利要求1所述的方法,其特征在于,基于决策预测先验信息、所述第一手牌数据与所述第二手牌数据,沿所述博弈树搜索所述目标玩家的各第一候选决策的可能对局结果,包括:
基于所述第一手牌数据,从所述各第一候选决策中选中一所述第一候选决策,作为获取对应的可能对局结果的第一目标决策;
基于所述决策预测先验信息与所述第二手牌数据,预测其他玩家在当前对局状态执行的第二目标决策;
基于预设的对局规则,从所述第一目标决策与所述第二目标决策中确定出最高优先级的目标决策;
确定所述最高优先级的目标决策被实现后的更新对局状态,若所述更新对局状态满足预设的对局继续状态,则继续沿所述博弈树搜索所述第一目标决策的可能对局结果。
3.根据权利要求2所述的方法,其特征在于,基于所述第一手牌数据,从所述各第一候选决策中选中一第一候选决策,作为获取对应的可能对局结果的第一目标决策,包括:
基于所述第一手牌数据,确定所述各第一候选决策;
从所述各第一候选决策中随机选中一所述第一候选决策,作为所述第一目标决策。
4.根据权利要求2所述的方法,其特征在于,所述决策预测先验信息包括预设的先验收益预测策略,基于所述第一手牌数据,从所述各第一候选决策中选中一第一候选决策,作为获取对应的可能对局结果的第一目标决策,包括:
基于所述第一手牌数据,确定所述各第一候选决策;
基于所述先验收益预测策略与所述第一手牌数据,分别预测所述各第一候选决策对应的先验收益值;
选中一所述先验收益值不低于预设收益值阈值的所述第一候选决策,作为所述第一目标决策。
5.根据权利要求2所述的方法,其特征在于,所述决策预测先验信息包括预设的先验收益预测策略,基于所述决策预测先验信息与所述第二手牌数据,预测其他玩家在当前对局状态执行的第二目标决策,包括:
基于所述第二手牌数据,确定其他玩家在当前对局状态可执行的各第二候选决策;
基于所述先验收益预测策略与所述第二手牌数据,分别预测所述各第二候选决策对应的先验收益值;
基于所述先验收益值,预测其他玩家在当前对局状态执行的第二目标决策。
6.根据权利要求5所述的方法,其特征在于,基于所述先验收益值,预测其他玩家在当前对局状态执行的第二目标决策,包括:将最大的所述先验收益值对应的第二候选决策,确定为其他玩家在当前对局状态执行的第二目标决策。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010036509.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种快餐店菜品展示区用橱窗
- 下一篇:一种植物油体乳液及应用