[发明专利]模型训练方法、对象识别方法、装置、介质及电子设备在审
申请号: | 201910152180.8 | 申请日: | 2019-02-28 |
公开(公告)号: | CN111626315A | 公开(公告)日: | 2020-09-04 |
发明(设计)人: | 刘武;梅涛;刘鑫辰 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 袁礼君;阚梓瑄 |
地址: | 100086 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 训练 方法 对象 识别 装置 介质 电子设备 | ||
1.一种模型训练方法,用于对包括特征提取层和分类层的预训练模型进行追加训练,其特征在于,所述方法包括:
基于所述预训练模型的特征提取层构建追加样本分类模型;
利用标注追加类型的追加样本对所述追加样本分类模型进行训练以确定所述追加类型的追加分类权重;
将所述追加分类权重添加至所述预训练模型的分类层。
2.根据权利要求1所述的模型训练方法,其特征在于,所述追加样本分类模型包括追加样本特征生成器和追加样本权重生成器;所述基于所述预训练模型的特征提取层构建追加样本分类模型,包括:
将所述预训练模型的特征提取层进行参数固定,以形成所述追加样本特征生成器;
从所述预训练模型的分类层中获取原始分类权重,并基于所述原始分类权重构建所述追加样本权重生成器。
3.根据权利要求2所述的模型训练方法,其特征在于,所述基于所述原始分类权重构建所述追加样本权重生成器,包括:
利用所述追加样本特征生成器对追加样本进行特征提取以得到所述追加样本的特征向量;
根据所述特征向量计算对应于所述追加样本的追加类型的均值向量;
将所述均值向量和所述预训练模型的原始分类权重作为输入参数并将所述追加分类权重作为输出参数,构建所述追加样本权重生成器。
4.根据权利要求3所述的模型训练方法,其特征在于,所述均值向量基于如下公式计算得到:
其中,Fj为所述追加类型的均值向量,m为对应于所述追加类型的追加样本的数量,fi为所述追加样本的特征向量。
5.根据权利要求3所述的模型训练方法,其特征在于,所述追加样本权重生成器基于如下公式构建得到:
其中,Wn为所述追加类型的追加分类权重,n为所述追加类型的数量,base为所述预训练模型的原始类型数量,attention()为注意力模型函数,Fj为所述追加类型的均值向量,lb为待学习的注意力分配参数,Wb为所述预训练模型的原始分类权重。
6.一种对象识别方法,其特征在于,包括:
获取包含待识别对象的图像;
将所述图像输入预先训练的对象识别模型,以得到所述待识别对象的识别结果;
其中,所述对象识别模型是由如权利要求1-5中任意一项所述的模型训练方法训练得到的。
7.一种模型训练装置,用于对包括特征提取层和分类层的预训练模型进行追加训练,其特征在于,所述装置包括:
模型构建模块,被配置为基于所述预训练模型的特征提取层构建追加样本分类模型;
模型训练模块,被配置为利用标注追加类型的追加样本对所述追加样本分类模型进行训练以确定所述追加类型的追加分类权重;
权重追加模块,被配置为将所述追加分类权重添加至所述预训练模型的分类层。
8.一种对象识别装置,其特征在于,包括:
图像获取模块,被配置为获取包含待识别对象的图像;
图像识别模块,被配置为将所述图像输入预先训练的对象识别模型,以得到所述待识别对象的识别结果;
其中,所述对象识别模型是由如权利要求1-5中任意一项所述的模型训练方法训练得到的。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-6中任意一项所述的方法。
10.一种电子设备,其特征在于,包括:
处理器;
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器被配置为经由执行所述可执行指令来执行权利要求1-6中任意一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910152180.8/1.html,转载请声明来源钻瓜专利网。