[发明专利]模型训练方法、装置、计算机设备及存储介质在审
申请号: | 202011162501.1 | 申请日: | 2020-10-27 |
公开(公告)号: | CN112329916A | 公开(公告)日: | 2021-02-05 |
发明(设计)人: | 陈志远 | 申请(专利权)人: | 上海眼控科技股份有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06N20/00 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 杜娟娟 |
地址: | 200030 上海市徐汇*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 训练 方法 装置 计算机 设备 存储 介质 | ||
本申请涉及一种模型训练方法、装置、计算机设备及存储介质。该方法包括获取第一训练样本集合,所述第一训练样本集合包括多个第一图片样本;获取多个样本旋转角度,对于各所述样本旋转角度,将所述第一训练样本集合中的各所述第一图片样本旋转至所述样本旋转角度,得到与所述样本旋转角度对应的第二训练样本集合;其中,各所述样本旋转角度大于预设的角度阈值;基于各所述第二训练样本集合分别对初始模型进行训练,得到与各所述第二训练样本集合一一对应的中间模型;对所述多个中间模型进行模型蒸馏,得到目标模型。本申请实施例可以提高目标模型的精度。
技术领域
本申请涉及机器学习技术领域,特别是涉及一种模型训练方法、装置、计算机设备及存储介质。
背景技术
监督学习是指利用标注有标签的样本对神经网络模型进行训练,基于监督学习方法训练神经网络模型的过程中,需要首先获取带有标签的样本。
现有技术中,由于样本标注标签需要耗费大量人力物力成本,因此,带有标签的样本的数量较少,而样本的数量较少会导致神经网络模型学习到的特征较少,从而导致最终的模型的测试精度较差。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高模型测试精度的模型训练方法、装置、计算机设备和存储介质。
一种模型训练方法,该方法包括:
获取第一训练样本集合,第一训练样本集合包括多个第一图片样本;
获取多个样本旋转角度,对于各样本旋转角度,将第一训练样本集合中的各第一图片样本旋转至样本旋转角度,得到与样本旋转角度对应的第二训练样本集合;其中,各样本旋转角度大于预设的角度阈值;
基于各第二训练样本集合分别对初始模型进行训练,得到与各第二训练样本集合一一对应的中间模型;
对多个中间模型进行模型蒸馏,得到目标模型。
在其中一个实施例中,对多个中间模型进行模型蒸馏,得到目标模型,包括:
获取目标图片;
将目标图片分别旋转至与各中间模型对应的角度,得到旋转后的中间图片;
将中间图片分别输入至各中间模型中,并根据各中间模型的输出结果获取目标图片的标签;
基于目标图片和目标图片的标签对初始模型进行训练,得到目标模型。
在其中一个实施例中,将目标图片分别旋转至与各中间模型对应的角度,包括:
利用矩阵旋转函数将目标图片分别旋转至各中间模型对应的角度。
在其中一个实施例中,中间模型的输出结果为特征图,根据各中间模型的输出结果获取目标图片的标签,包括:
将各中间模型输出的特征图进行按位相加,得到融合后的特征图;
将融合后的特征图确定为目标图片的标签。
在其中一个实施例中,各样本旋转角度之间的角度差相等,且各样本旋转角度大于20度。
在其中一个实施例中,样本旋转角度包括0度,45度,90度,135度,180度,225度,270度和315度。
一种模型训练装置,该装置包括:
第一获取模块,用于获取第一训练样本集合,第一训练样本集合包括多个第一图片样本;
第二获取模块,用于获取多个样本旋转角度,对于各样本旋转角度,将第一训练样本集合中的各第一图片样本旋转至样本旋转角度,得到与样本旋转角度对应的第二训练样本集合;其中,各样本旋转角度大于预设的角度阈值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海眼控科技股份有限公司,未经上海眼控科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011162501.1/2.html,转载请声明来源钻瓜专利网。