[发明专利]电子棋牌决策模型训练方法及装置、策略生成方法及装置有效
申请号: | 201811418440.3 | 申请日: | 2018-11-26 |
公开(公告)号: | CN109621422B | 公开(公告)日: | 2021-09-17 |
发明(设计)人: | 林群芬;陈添财;郑规 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | A63F13/60 | 分类号: | A63F13/60;A63F13/70 |
代理公司: | 深圳市隆天联鼎知识产权代理有限公司 44232 | 代理人: | 刘抗美 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 电子 棋牌 决策 模型 训练 方法 装置 策略 生成 | ||
1.一种电子棋牌决策模型训练方法,其特征在于,包括:
将电子棋牌游戏参与者的样本牌面信息转换为多维数据结构;
通过卷积核对转换后的所述样本牌面信息进行卷积运算;
对所述卷积运算的结果进行池化处理,得到第一特征信息;
将与所述样本牌面信息对应的样本局面信息转换为一位有效编码而得到第二特征信息;
将多维的所述第一特征信息摊平为行向量,对摊平后的所述第一特征信息和一位有效编码形式的所述第二特征信息进行拼接,生成第三特征信息;
通过所述第三特征信息以及所述样本牌面信息对应的样本出牌策略对电子棋牌决策模型进行训练。
2.根据权利要求1所述的电子棋牌决策模型训练方法,其特征在于,所述电子棋牌决策模型为卷积神经网络模型。
3.根据权利要求1所述的电子棋牌决策模型训练方法,其特征在于,将所述样本牌面信息转换为多维数据结构,包括:
将所述样本牌面信息转换为一个或多个矩阵数据结构。
4.根据权利要求1所述的电子棋牌决策模型训练方法,其特征在于,通过所述第三特征信息以及所述样本牌面信息对应的样本出牌策略对电子棋牌决策模型进行训练,包括:
将所述第三特征信息以及所述样本牌面信息对应的样本出牌策略作为消息加入预设消息队列;
从所述预设消息队列中获取所述第三特征信息以及所述样本牌面信息对应的样本出牌策略对电子棋牌决策模型进行训练。
5.根据权利要求1所述的电子棋牌决策模型训练方法,其特征在于,所述训练方法还包括:
对所述电子棋牌决策模型进行强化学习训练。
6.根据权利要求5所述的电子棋牌决策模型训练方法,其特征在于,对所述电子棋牌决策模型进行强化学习训练,包括:
通过当前电子棋牌决策模型以及多个历史电子棋牌决策模型分别提供出牌策略进行模拟对战;
基于所述模拟对战的结果,对所述当前电子棋牌决策模型的出牌策略赋予奖励值;
基于所述奖励值以及损失函数计算损失值,并根据所述损失值更新所述电子棋牌决策模型的参数。
7.根据权利要求1~6任一项所述的电子棋牌决策模型训练方法,其特征在于,所述训练方法还包括:
通过对所述电子棋牌决策模型进行训练得到多个不同的候选电子棋牌决策模型;
对所述候选电子棋牌决策模型进行分级,以获取多级目标电子棋牌决策模型。
8.根据权利要求7所述的电子棋牌决策模型训练方法,其特征在于,通过对所述电子棋牌决策模型进行训练得到多个不同的候选电子棋牌决策模型,包括以下一种或多种:
通过提供不同的所述第三特征信息以及所述样本牌面信息训练得到多个不同的候选电子棋牌决策模型;或者
通过提供不同的初始电子棋牌决策模型进行训练得到多个不同的候选电子棋牌决策模型;或者
基于不同的训练参数对所述电子棋牌决策模型进行训练得到多个不同的候选电子棋牌决策模型。
9.根据权利要求7所述的电子棋牌决策模型训练方法,其特征在于,对所述候选电子棋牌决策模型进行分级包括:
从所述候选电子棋牌决策模型中确定多个对战候选电子棋牌决策模型;
获取各所述对战候选电子棋牌决策模型的当前胜负概率分布;
获取对战候选电子棋牌决策模型的模拟对战结果,并根据对战结果更新各所述候选电子棋牌决策模型的当前胜负概率分布。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811418440.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:信息处理方法及装置
- 下一篇:可视化游戏数据调试方法及装置