[发明专利]多人对战游戏的自对弈模型训练方法、装置和计算机设备在审
申请号: | 202010220850.8 | 申请日: | 2020-03-26 |
公开(公告)号: | CN111111220A | 公开(公告)日: | 2020-05-08 |
发明(设计)人: | 韩国安;邱福浩;李晓倩;王亮;付强 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | A63F13/847 | 分类号: | A63F13/847;A63F13/67;A63F13/79 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 李文渊 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 游戏 对弈 模型 训练 方法 装置 计算机 设备 | ||
1.一种多人对战游戏的自对弈模型训练方法,其特征在于,所述方法包括:
获取历史对战视频数据;
从所述历史对战视频数据的对战视频帧中各状态特征区域获得训练对战状态特征,并从所述对战视频帧中各对战操作区域获得所述训练对战状态特征相应的操作标签;
基于所述训练对战状态特征和所述操作标签进行训练,得到对战策略模型;
通过所述对战策略模型,基于对战中的对战状态特征预测操作以进行对战;
获取对战中的所述对战状态特征和相应预测的操作的操作价值标签;
基于所述对战状态特征和所述操作价值标签训练对战操作价值模型;
根据所述对战策略模型和所述对战操作价值模型构建自对弈模型并训练。
2.根据权利要求1所述的方法,其特征在于,所述从所述历史对战视频数据的对战视频帧中各状态特征区域获得训练对战状态特征,并从所述对战视频帧中各对战操作区域获得所述训练对战状态特征相应的操作标签包括:
从所述历史对战视频数据的对战视频帧中各状态特征区域提取历史对战状态特征;
从所述对战视频帧的各对战操作区域中提取所述历史对战状态特征对应的历史操作标签;
根据所述历史对战状态特征和所述历史操作标签得到训练对战状态特征和相应的操作标签。
3.根据权利要求2所述的方法,其特征在于,所述从所述历史对战视频数据的对战视频帧中各状态特征区域提取历史对战状态特征包括:
从所述历史对战视频数据中抽取对战视频帧;
确定所述对战视频帧中的各状态特征区域;
对各所述状态特征区域进行状态特征提取,获得历史对战状态特征。
4.根据权利要求3所述的方法,其特征在于,所述对各所述状态特征区域进行状态特征提取,获得历史对战状态特征包括:
对各所述状态特征区域中的地图状态区域和对战状态区域进行特征提取,得到对战状态图像特征;
对各所述状态特征区域中的对战全局属性区域进行特征提取,得到对战全局属性特征;
对各所述状态特征区域中的对战单元属性区域进行特征提取,得到对战单元状态特征;所述历史对战状态特征包括所述对战状态图像特征、所述对战全局属性特征和所述对战单元状态特征。
5.根据权利要求3所述的方法,其特征在于,所述从所述对战视频帧的各对战操作区域中提取所述历史对战状态特征对应的历史操作标签包括:
确定所述对战视频帧中的各对战操作区域;
从各所述对战操作区域中确定操作类型;
确定所述操作类型对应的操作参数;所述历史操作标签包括所述操作类型和相应的操作参数。
6.根据权利要求1所述的方法,其特征在于,所述获取对战中的所述对战状态特征和相应预测的操作的操作价值标签包括:
获取对战中的所述对战状态特征;
获取所述对战策略模型针对所述对战状态特征所相应预测的操作;
确定预测的所述操作的操作价值标签。
7.根据权利要求6所述的方法,其特征在于,所述确定预测的所述操作的操作价值标签包括:
从所述对战状态特征中确定所述操作对应的前一对战状态特征;
从所述对战状态特征中确定所述操作对应的后一对战状态特征;
根据所述前一对战状态特征和所述后一对战状态特征,确定所述操作的操作价值标签。
8.根据权利要求1所述的方法,其特征在于,所述根据所述对战策略模型和所述对战操作价值模型构建自对弈模型并训练包括:
根据所述对战策略模型和所述对战操作价值模型构建自对弈模型;
通过所述自对弈模型,基于对战中的自对弈对战状态特征预测操作以进行对战;
获取对战中的对战数据,并基于所述对战数据训练所述自对弈模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010220850.8/1.html,转载请声明来源钻瓜专利网。