[发明专利]决策模型的训练方法、装置、设备、存储介质及程序产品在审
申请号: | 202210067450.7 | 申请日: | 2022-01-20 |
公开(公告)号: | CN114404975A | 公开(公告)日: | 2022-04-29 |
发明(设计)人: | 曹琪扬;刘若尘;廖詩颺;周圆 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | A63F13/55 | 分类号: | A63F13/55;A63F13/67;A63F13/833;G06N20/00;G06N5/00 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 李文静 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 决策 模型 训练 方法 装置 设备 存储 介质 程序 产品 | ||
1.一种决策模型的训练方法,其特征在于,所述方法包括:
获取各个虚拟角色对应的模型池,所述模型池中包含所述虚拟角色对应的各个决策模型,所述决策模型用于指示所述虚拟角色在对战时采用的对战策略;
在第n轮迭代过程中,基于所述虚拟角色间对局过程中的对局数据,对各个所述虚拟角色的第n决策模型进行更新训练,得到各个所述虚拟角色的第n+1决策模型,以及将各个所述第n+1决策模型分别添加至对应虚拟角色的模型池中,所述第n决策模型是所述模型池中上一轮迭代过程训练得到的模型;
在满足迭代训练结束条件的情况下,将所述模型池中最后一轮训练得到的决策模型确定为所述虚拟角色的目标决策模型。
2.根据权利要求1所述的方法,其特征在于,所述基于所述虚拟角色间对局过程中的对局数据,对各个所述虚拟角色的第n决策模型进行更新训练,得到各个所述虚拟角色的第n+1决策模型,以及将各个所述第n+1决策模型分别添加至对应虚拟角色的模型池中,包括:
基于第i虚拟角色与其他虚拟角色间对局过程中的对局数据,对所述第i虚拟角色的第n决策模型进行更新训练,得到所述第i虚拟角色的第n+1决策模型;
将所述第i虚拟角色的第n+1决策模型添加至所述第i虚拟角色对应的模型池中;
基于第i+1虚拟角色与其他虚拟角色间对局过程中的对局数据,对所述第i+1虚拟角色的第n决策模型进行更新训练,得到所述第i+1虚拟角色的第n+1决策模型;
在将各个所述虚拟角色的第n+1决策模型添加至对应虚拟角色的模型池的情况下,进入第n+1轮迭代过程。
3.根据权利要求2所述的方法,其特征在于,所述基于第i虚拟角色与其他虚拟角色间对局过程中的对局数据,对第i角色的第n决策模型进行更新训练,得到所述第i角色的第n+1决策模型,包括:
从对战虚拟角色对应的模型池中进行第m次模型采样,得到第m对战决策模型,所述对战虚拟角色是各个所述虚拟角色中除所述第i虚拟角色之外的虚拟角色;
基于所述第i虚拟角色的第m-1次优化后的第n决策模型与所述第m对战决策模型,控制所述第i虚拟角色与所述第m对战决策模型所属的第m对战虚拟角色进行对战,得到第m对战结果;
基于所述第m对战结果对所述第m-1次优化后的第n决策模型进行参数优化,得到所述第i虚拟角色的第m次优化后的第n决策模型;
在满足策略收敛条件的情况下,停止对所述第i虚拟角色的第n决策模型进行参数优化,以及将最后一次优化后的第n决策模型确定为所述第i虚拟角色的第n+1决策模型。
4.根据权利要求3所述的方法,其特征在于,所述从对战虚拟角色对应的模型池中进行第m次模型采样,得到第m对战决策模型,包括:
从所述对战虚拟角色中进行第m次角色采样,得到所述第m对战虚拟角色;
从所述第m对战虚拟角色对应的模型池中进行第m次模型采样,得到所述第m对战决策模型,其中,角色采样与模型采样为虚拟遗憾最小化CFR采样。
5.根据权利要求4所述的方法,其特征在于,所述从所述对战虚拟角色中进行第m次角色采样,得到所述第m对战虚拟角色,包括:
基于所述对战虚拟角色的第m角色权重,从所述对战虚拟角色中采样得到所述第m对战虚拟角色;
所述从所述第m对战虚拟角色对应的模型池中进行第m次模型采样,得到所述第m对战决策模型,包括:
基于所述第m对战虚拟角色对应的模型池中决策模型的第m模型权重,从所述第m对战虚拟角色对应模型池中采样得到所述第m对战决策模型;
其中,所述角色权重与所述模型权重与所述第i虚拟角色的对战失败率呈正相关关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210067450.7/1.html,转载请声明来源钻瓜专利网。