[发明专利]模型训练方法、装置、存储介质及设备有效
申请号: | 201910423433.0 | 申请日: | 2019-05-21 |
公开(公告)号: | CN110119815B | 公开(公告)日: | 2021-08-13 |
发明(设计)人: | 黄超;张力柯 | 申请(专利权)人: | 深圳市腾讯网域计算机网络有限公司 |
主分类号: | G06N5/02 | 分类号: | G06N5/02 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 张所明 |
地址: | 518000 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 训练 方法 装置 存储 介质 设备 | ||
1.一种模型训练方法,其特征在于,所述方法包括:
在目标交互程序的运行过程中,基于目标时长对当前显示的交互过程进行录制,得到初始样本;其中,录制的交互动作与应用的类型相关;
对所述初始样本进行重新采样处理,得到多个训练样本;其中,所述多个训练样本中每个交互动作对应的样本数量均大于第二阈值,所述第二阈值是根据录制过程中的交互动作总数量确定的;每个所述训练样本中均包括交互画面和动作标签,所述动作标签给出了角色对象在所述交互画面中采取的交互动作;
对每个所述训练样本中包括的交互画面进行特征提取,基于提取到的特征进行聚类,得到的聚类结果将所述多个训练样本划分为至少两个类别;
统计所述至少两个类别中每一个类别包含的动作标签数量;
对于任意一个类别,当所述类别包含的动作标签数量低于第一阈值时,将所述类别对应的训练样本确定为关键样本,所述关键样本为所述角色对象需执行特定交互动作的交互画面对应的样本,所述关键样本对应所述交互过程中的关键时刻;
为每个所述训练样本设置权重,基于带权重的所述训练样本更新深度网络的网络参数,每个所述关键样本的权重均大于所述多个训练样本中其他样本的权重;
在应用阶段,获取应用图像,提取所述应用图像中的特定区域;其中,所述特定区域是对交互动作具有判别力的区域,所述对交互动作具有判别力的区域指示交互画面中角色对象的周边区域;对提取到的图像区域进行缩放处理,得到预设大小的第二图像,将所述第二图像输入训练好的深度网络中;获取所述训练好的深度网络输出的后验概率,所述后验概率包括在所述应用图像反应的交互状态下采取每一个类别动作的概率;将数值最大的后验概率指示的交互动作,确定为在所述应用图像反应的交互状态下执行的动作。
2.根据权利要求1所述的方法,其特征在于,所述为每个所述训练样本设置权重,包括:
对于任意一个类别,将所述类别包含的动作标签数量的倒数,确定为所述类别对应的训练样本的权重。
3.根据权利要求1所述的方法,其特征在于,所述基于带权重的所述训练样本更新深度网络的网络参数,包括:
对于任意一个训练样本,提取所述训练样本中包括的交互画面中的特定区域,对提取到的图像区域进行缩放处理,得到预设大小的第一图像;
将所述第一图像输入所述深度网络中,获取所述深度网络输出的动作预测结果;
基于与所述训练样本对应的损失函数,确定所述训练样本中包含的动作标签指示的交互动作与所述动作预测结果给出的估计动作是否匹配;
当所述动作标签指示的交互动作与所述估计动作不匹配时,不断迭代更新所述深度网络的网络参数,直至所述深度网络收敛。
4.根据权利要求3所述的方法,其特征在于,与所述训练样本对应的损失函数如下:
其中,w指代所述训练样本的权重,C指代交互动作的总数量,i指代动作类别,取值为1至C,yi指代所述动作标签指示的交互动作是否属于第i个类别,指代所述深度网络输出的、在所述训练样本中包括的交互画面下执行第i个类别动作的后验概率,w的取值为0至1,C的取值为正整数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市腾讯网域计算机网络有限公司,未经深圳市腾讯网域计算机网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910423433.0/1.html,转载请声明来源钻瓜专利网。