[发明专利]多人对战游戏的自对弈模型训练方法、装置和计算机设备在审
申请号: | 202010220850.8 | 申请日: | 2020-03-26 |
公开(公告)号: | CN111111220A | 公开(公告)日: | 2020-05-08 |
发明(设计)人: | 韩国安;邱福浩;李晓倩;王亮;付强 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | A63F13/847 | 分类号: | A63F13/847;A63F13/67;A63F13/79 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 李文渊 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 游戏 对弈 模型 训练 方法 装置 计算机 设备 | ||
本申请涉及一种多人对战游戏的自对弈模型训练方法、装置、计算机设备和存储介质。所述方法包括:获取历史对战视频数据;从历史对战视频数据的对战视频帧中各状态特征区域获得训练对战状态特征,并从对战视频帧中各对战操作区域获得训练对战状态特征相应的操作标签;基于训练对战状态特征和操作标签进行训练,得到对战策略模型;通过对战策略模型,基于对战中的对战状态特征预测操作以进行对战;获取对战中的对战状态特征和相应预测的操作的操作价值标签;基于对战状态特征和操作价值标签训练对战操作价值模型;根据对战策略模型和对战操作价值模型构建自对弈模型并训练。采用本方法能够提高自对弈模型的训练效率。
技术领域
本申请涉及计算机技术领域,特别是涉及一种多人对战游戏的自对弈模型训练方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术的发展,计算机游戏等人机交互应用,如多人在线战术竞技游戏(Multiplayer Online Battle Arena, MOBA)类游戏成为越来越多人的娱乐方式,用户玩家可以在计算机游戏提供的虚拟场景中,操控虚拟对象单元进行游戏操作。在MOBA类游戏中,用户玩家一般可分为多个敌对阵营,通过操控虚拟对象单元对抗竞争完成游戏目标赢得游戏胜利。在玩家对战中,对战双方均为用户玩家,由用户玩家根据游戏提供的虚拟场景控制虚拟对象单元进行对抗,而在人机对战或游戏托管时,需要由计算机,如游戏AI(Artificial Intelligence,人工智能)自动控制电脑玩家或对应托管的虚拟对象单元进行游戏对抗。
目前,MOBA类游戏中虚拟地图环境复杂、虚拟对象单元丰富、虚拟道具和虚拟操作类型多种多样,此外对抗竞争中还涉及各式各样的玩法策略,游戏的复杂性极大地增加了游戏AI进行对战探索学习的难度,游戏AI探索学习的效率较低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高多人对战游戏模型训练效率的自对弈模型训练方法、装置、计算机设备和存储介质。
一种多人对战游戏的自对弈模型训练方法,所述方法包括:
获取历史对战视频数据;
从历史对战视频数据的对战视频帧中各状态特征区域获得训练对战状态特征,并从对战视频帧中各对战操作区域获得训练对战状态特征相应的操作标签;
基于训练对战状态特征和操作标签进行训练,得到对战策略模型;
通过对战策略模型,基于对战中的对战状态特征预测操作以进行对战;
获取对战中的对战状态特征和相应预测的操作的操作价值标签;
基于对战状态特征和操作价值标签训练对战操作价值模型;
根据对战策略模型和对战操作价值模型构建自对弈模型并训练。
一种多人对战游戏的自对弈模型训练装置,所述装置包括:
历史对战数据获取模块,用于获取历史对战视频数据;
训练数据获取模块,用于从历史对战视频数据的对战视频帧中各状态特征区域获得训练对战状态特征,并从对战视频帧中各对战操作区域获得训练对战状态特征相应的操作标签;
策略模型训练模块,用于基于训练对战状态特征和操作标签进行训练,得到对战策略模型;
策略模型对战模块,用于通过对战策略模型,基于对战中的对战状态特征预测操作以进行对战;
价值模型训练数据模块,用于获取对战中的对战状态特征和相应预测的操作的操作价值标签;
价值模型训练模块,用于基于对战状态特征和操作价值标签训练对战操作价值模型;
自对弈模型训练模块,用于根据对战策略模型和对战操作价值模型构建自对弈模型并训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010220850.8/2.html,转载请声明来源钻瓜专利网。