[发明专利]语音辅助的视听协同学习新目标网络模型的构建方法在审
申请号: | 201911334785.5 | 申请日: | 2019-12-23 |
公开(公告)号: | CN111079849A | 公开(公告)日: | 2020-04-28 |
发明(设计)人: | 苟先太;康立烨;钱照国;张葛祥 | 申请(专利权)人: | 西南交通大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/46;G06N3/04;G06N3/08 |
代理公司: | 成都正华专利代理事务所(普通合伙) 51229 | 代理人: | 李蕊 |
地址: | 610031*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 辅助 视听 协同 学习 新目标 网络 模型 构建 方法 | ||
本发明公开了一种语音辅助的视听协同学习新目标网络模型的构建方法,包括步骤S1‑S11,本发明基于传统的对象识别模型和图像特征匹配技术,通过初始对象识别模型对已知对象进行精确识别,若出现新对象,则通过在线学习模型对新对象进行特征记忆,并实时更新初始对象识别模型,使模型的泛化能力更强,更加适用现实场景的应用。
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种语音辅助的视听协同学习新目标网络模型的构建方法。
背景技术
随着计算机视觉的快速发展,对象识别技术已经应用到了各个领域,且带来了巨大的经济效益。近年来,出现了不少的对象识别网络模型,它们的识别准确度不断地得到提升,但有一个共同的缺陷,就是必须提前准备图像数据集,针对已有的数据集进行训练,生成一个对象检测器。在实际应用中,对象的种类有很多,很多图像数据收集不到或者很难得到。在一些场景中,事先并不知道该准备哪些类别的图像数据,这就导致传统的网络模型很难应用到实际场景中。图像的特征匹配技术可以对两种图像进行匹配,当没有足够的训练数据时,该技术具有很强的应用价值,虽然泛化能力较弱,但在一些特定的场景中也能得到很好地应用。
一个好的对象识别模型应该和人一样,具有自主学习和引导学习的能力,对已学习到的对象可以精确识别,对于新对象通过人的引导可以记忆学习,并不断更新模型的知识储备,使模型变得更加智能化。针对已有技术,本发明给出一种语音辅助的视听协同学习新目标的网络模型,它具有在线学习新目标的功能,在一些特定场景(如家居机器人、巡检机器人等)中具有重要的应用价值,将推动该领域的发展。
发明内容
针对现有技术的上述不足,本发明提供了一种解决现有网络模型不具备在线学习新目标缺陷的语音辅助的视听协同学习新目标网络模型的构建方法。
为达到上述发明目的,本发明所采用的技术方案为:
提供一种语音辅助的视听协同学习新目标网络模型的构建方法,其包括以下步骤:
S1:搭建用于原始对象识别的原始对象分类器M1和用于提取对象的特征向量的对象特征提取模型M2;
S2:创建用于保存新对象的特征向量的对象特征向量库B1和用于保存新对象的图像数据集的新对象图像库B2;
S3:输入新图像picture,加载原始对象分类器M1对新图像picture进行对象识别;
S4:若新图像picture中不存在未识别的对象,则停止操作;若存在未识别的对象(object-1、……、object-m)时,则加载对象特征提取模型M2对未识别的对象(object-1、……、object-m)进行特征提取,将提取到的特征向量集R中的每一个特征向量分别与特征向量库B1中每一个特征向量进行特征匹配;
S5:若匹配时存在匹配的最高置信度most-value高于置信度基础值base-value的对象,则判定该对象正确识别,反之则判定该对象为新对象object;
S6:通过语音辅助进行人机交互,对新对象object的显性特征进行语音描述,为新对象object打上语音标签,得到新图像image;
S7:对新图像image进行图像增广,得到增广后的图像(image-1、image-2、……、image-n),并保存到新对象图像库B2中;
S8:加载对象特征提取模型M2,对新图像image中的新对象object进行特征提取,并将得到的特征向量feature保存到特征向量库B1中;
S9:遍历新对象图像库B2,判断是否有新对象的数据集量达到训练要求的数据集量N;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南交通大学,未经西南交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911334785.5/2.html,转载请声明来源钻瓜专利网。