[发明专利]语音辅助的视听协同学习新目标网络模型的构建方法在审
申请号: | 201911334785.5 | 申请日: | 2019-12-23 |
公开(公告)号: | CN111079849A | 公开(公告)日: | 2020-04-28 |
发明(设计)人: | 苟先太;康立烨;钱照国;张葛祥 | 申请(专利权)人: | 西南交通大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/46;G06N3/04;G06N3/08 |
代理公司: | 成都正华专利代理事务所(普通合伙) 51229 | 代理人: | 李蕊 |
地址: | 610031*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 辅助 视听 协同 学习 新目标 网络 模型 构建 方法 | ||
1.一种语音辅助的视听协同学习新目标网络模型的构建方法,其特征在于,包括以下步骤:
S1:搭建用于原始对象识别的原始对象分类器M1和用于提取对象的特征向量的对象特征提取模型M2;
S2:创建用于保存新对象的特征向量的对象特征向量库B1和用于保存新对象的图像数据集的新对象图像库B2;
S3:输入新图像picture,加载原始对象分类器M1对新图像picture进行对象识别;
S4:若新图像picture中不存在未识别的对象,则停止操作;若存在未识别的对象(object-1、……、object-m)时,则加载对象特征提取模型M2对未识别的对象(object-1、……、object-m)进行特征提取,将提取到的特征向量集R中的每一个特征向量分别与特征向量库B1中每一个特征向量进行特征匹配;
S5:若匹配时存在匹配的最高置信度most-value高于置信度基础值base-value的对象,则判定该对象正确识别,反之则判定该对象为新对象object;
S6:通过语音辅助进行人机交互,对新对象object的显性特征进行语音描述,为新对象object打上语音标签,得到新图像image;
S7:对新图像image进行图像增广,得到增广后的图像(image-1、image-2、……、image-n),并保存到新对象图像库B2中;
S8:加载对象特征提取模型M2,对新图像image中的新对象object进行特征提取,并将得到的特征向量feature保存到特征向量库B1中;
S9:遍历新对象图像库B2,判断是否有新对象的数据集量达到训练要求的数据集量N;
S10:若是,则将该新对象的数据集N与原始对象分类器M1的数据集进行合并,并利用合并的数据集训练新的对象分类器替换原始对象分类器M1,并删除新对象图像库B2中该新对象特征的图像数据集;
S11:否则,则重复步骤S3-S9,直到有新对象的数据集量达到训练要求的数据集量N。
2.根据权利要求1所述的语音辅助的视听协同学习新目标网络模型的构建方法,其特征在于,所述搭建用于原始对象识别的原始对象分类器M1的方法包括:
A11:根据实际应用场景,利用图像数据集生成训练图像集images-input1;
A12:创建残差卷积神经网络ResNet来提取训练图像集images-input1中图像的图像特征feature-maps,残差卷积神经网络ResNet由卷积层conv1、relu1层和池化层pooling1组成;
A13:创建RPN网络生成图像候选区域region-proposals,并输入图像特征feature-maps,通过Softmax判断图像特征feature-maps属于前景还是后景,并对候选区域region-proposal进行修正,生成准确的候选区域proposals1;
A14:利用候选区域proposals1和图像特征feature-maps,生成一个固定大小的特征区域proposal-feature-maps。
A15:将固定大小的特征区域proposal-feature-maps进行全连接,利用Softmax进行对象分类,计算损失Loss,并修正损失Loss,实现原始对象的精确分类。
3.根据权利要求2所述的语音辅助的视听协同学习新目标网络模型的构建方法,其特征在于,搭建用于提取对象的特征向量的对象特征提取模型M2的方法包括:
B11:准备具有若干类型的图像数据Data1作为训练数据集images-input2;
B12:加载训练数据集images-input2,预训练自主RPN网络模型RPN-model,输出对象候选区域proposals2;
B13:预训练特征提取网络模型con-model,加载训练数据集images-input2,特征提取网络模型con-model由卷积层conv2、relu2层、池化层pooling2和全连接层FC组成;
B14:对对象候选区域proposals2进行修正,然后分别输入到特征提取网络模型con-model中进行特征提取,得到每个候选区域的图像特征feature-maps。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南交通大学,未经西南交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911334785.5/1.html,转载请声明来源钻瓜专利网。