[发明专利]基于平衡样本的模型训练方法、装置、电子设备和存储介质在审
申请号: | 202111573203.6 | 申请日: | 2021-12-21 |
公开(公告)号: | CN114299571A | 公开(公告)日: | 2022-04-08 |
发明(设计)人: | 林哲;韩欣彤;卫华威 | 申请(专利权)人: | 广州虎牙科技有限公司 |
主分类号: | G06V40/16 | 分类号: | G06V40/16;G06K9/62;G06V10/764;G06V10/774 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 张欣欣 |
地址: | 511495 广东省广州市番禺*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 平衡 样本 模型 训练 方法 装置 电子设备 存储 介质 | ||
1.一种基于平衡样本的模型训练方法,其特征在于,所述方法包括:
获取多个训练样本,各所述训练样本具有标签向量,所述标签向量包含多个表情系数;
根据所述多个训练样本的同一类表情系数计算得到累加系数,由得到的多个累加系数构建累加向量;
根据所述累加向量中的累加系数的分布确定目标累加系数,并将目标累加系数的部分目标表情系数赋以第一权重,将其他表情系数赋以第二权重,得到由所有第一权重和第二权重构成的权重矩阵;
利用所述多个训练样本对构建的模型进行训练,并在以所述权重矩阵构成的损失函数的指导下对模型进行调整并继续训练,直至满足预设要求时停止训练。
2.根据权利要求1所述的基于平衡样本的模型训练方法,其特征在于,所述获取多个训练样本的步骤,包括:
获取多个原始样本,针对所述多个原始样本中的每类表情系数,为该类表情系数构建初始状态为空的多个数组,各所述数组对应该类表情系数所属区间所划分的各个子区间;
针对各类表情系数遍历各个原始样本,将各个原始样本分别放置于表情系数所属的子区间对应的数组内;
针对各类表情系数,从对应的数组内选取原始样本以作为训练样本,直至得到预设数量的训练样本。
3.根据权利要求2所述的基于平衡样本的模型训练方法,其特征在于,各类表情系数对应数组所属的子区间从小到大依次分布;
所述针对各类表情系数,从对应的数组内选取原始样本以作为训练样本的步骤之前,所述获取多个训练样本的步骤还包括:
针对各类表情系数,将对应的数组中所属子区间最小的数组删除;
将多个数组中为空的数组删除。
4.根据权利要求2所述的基于平衡样本的模型训练方法,其特征在于,所述针对各类表情系数,从对应的数组内选取原始样本以作为训练样本的步骤之前,所述获取多个训练样本的步骤还包括:
针对每类表情系数,确定其对应的数组中包含原始样本数量小于设定数量的数组;
将包含少于设定数量的原始样本的数组与其相邻的数组进行合并,以使合并后的数组中原始样本数量大于或等于所述设定数量。
5.根据权利要求2所述的基于平衡样本的模型训练方法,其特征在于,所述针对各类表情系数,从对应的数组内选取原始样本以作为训练样本,直至得到预设数量的训练样本的步骤,包括:
依次针对各类表情系数,依次从其对应的各个数组中选取一个原始样本,并检测选取的原始样本是否与当前已确定的训练样本中的任意一个重复,若重复则执行下一个数组的选取,若不重复则将选取的原始样本作为训练样本;
在得到的训练样本的数量达到预设数量时,停止选取动作。
6.根据权利要求5所述的基于平衡样本的模型训练方法,其特征在于,所述获取多个训练样本的步骤,还包括:
将得到的各个数组进行复制,得到对应的复制数组;
所述针对各类表情系数,从对应的数组内选取原始样本以作为训练样本,直至得到预设数量的训练样本的还步骤,包括:
针对各类表情系数,若该类表情系数对应的数组中存在为空的数组,则将该数组对应的复制数组中的原始样本复制并放置于该数组中。
7.根据权利要求1所述的基于平衡样本的模型训练方法,其特征在于,所述根据所述累加向量中的累加系数的分布确定目标累加系数的步骤,包括:
比对所述累加向量中的累加系数的大小,确定满足设定要求的累加系数;
将所述累加向量中超过所述满足设定要求的累加系数的预设倍数的累加系数确定为目标累加系数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州虎牙科技有限公司,未经广州虎牙科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111573203.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:UPS母线电容纹波优化控制方法及控制终端
- 下一篇:一种抗拔型管桩