[发明专利]AI模型训练方法、装置、存储介质及设备有效

申请号：	201910127573.3	申请日：	2019-02-20
公开（公告）号：	CN109902820B	公开（公告）日：	2023-04-07
发明（设计）人：	申俊峰	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G06N3/065	分类号：	G06N3/065;G06N3/08
代理公司：	北京三高永信知识产权代理有限责任公司 11138	代理人：	张所明
地址：	518057 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	ai 模型训练方法装置存储介质设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种AI模型训练方法，其特征在于，所述方法应用于至少两个训练机中的任意一个训练机，所述至少两个训练机中的每个训练机均与参数服务器通信连接，每一个所述训练机基于所述训练机的性能以及神经网络的复杂度与至少一个手游终端通信连接，与一个所述训练机通信连接的每个手游终端均各自对应一个模型训练环境，每个所述手游终端对应所述训练机上的一个AI训练进程，所述参数服务器中的模型结构与任意一个所述模型训练环境中的模型结构一致，所述方法包括：

每当所述模型训练环境中包含的手游终端向当前的AI模型输入一个第一环境状态画面时，获取所述当前的AI模型输出的交互动作；

获取与所述输出的交互动作匹配的反馈激励，以及在输出所述交互动作后下一时刻的第二环境状态画面；其中，所述第一环境状态画面和所述第二环境状态画面均是由所述AI训练进程实时获取的所述手游终端上的游戏画面；所述第一环境状态画面和所述第二环境状态画面为目标游戏中的角色对象参与游戏对局时生成的画面；

将输入的所述第一环境状态画面、所述输出的交互动作、所述反馈激励以及所述下一时刻的第二环境状态画面，作为一个候选样本扩充到候选样本集中；

在所述候选样本集中进行样本选取，得到训练样本集；

基于所述训练样本集获取目标损失函数，并基于所述目标损失函数获取所述AI模型当前的网络参数的梯度；

将所述网络参数的梯度发送至参数服务器，所述参数服务器用于基于所述网络参数的梯度对所述AI模型当前的网络参数进行更新；

每间隔一个游戏对局的时长，从所述参数服务器中获取更新后的网络参数，并以所述更新后的网络参数替换所述模型训练环境中所述AI模型当前的网络参数。

2.根据权利要求1所述的方法，其特征在于，对于所述候选样本集中的每一个样本，所述样本中包括第一环境状态画面、在所述第一环境状态画面下输出的交互动作、在输出所述交互动作后得到的反馈激励、以及在输出所述交互动作后下一时刻的第二环境状态画面。

3.根据权利要求1所述的方法，其特征在于，所述目标损失函数的计算公式为：

loss＝[y-Q(s,a)]²

y＝r+γ*max_aQ(s',a)

其中，Q(s,a)指代在环境状态s下对应交互动作a的价值；s'指代在所述环境状态s下输出所述交互动作a后下一时刻的环境状态；r指代在所述环境状态s下输出交互动作a后得到的反馈激励；γ为常数，指代价值Q(s,a)的折扣系数。