[发明专利]一种基于多尺度语言嵌入REC的目标检测方法有效
申请号: | 202110222614.4 | 申请日: | 2021-02-25 |
公开(公告)号: | CN112926662B | 公开(公告)日: | 2022-05-03 |
发明(设计)人: | 赵泰锦;李宏亮;邱荷茜;孟凡满;吴庆波;许林峰 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06V10/80 | 分类号: | G06V10/80;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 电子科技大学专利中心 51203 | 代理人: | 邹裕蓉 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 尺度 语言 嵌入 rec 目标 检测 方法 | ||
本发明提供一种基于多尺度语言嵌入REC的目标检测方法,把语言特征转化为不同尺度的卷积核,并与视觉特征进行卷积,得到语言特征与视觉特征每个点及其周围的点的相似度,将得到的相似度谱作用回原始视觉特征上,加强与语言相关的视觉特征的表达,同时引入全局视觉语言相互作用信息及位置信息,预测被描述的目标的位置,提升了网络对于视觉上下文的利用能力,相比于基准的普通基于单阶段REC的目标检测方法,预测准确率更高。
技术领域
本发明涉及单阶段指称表达理解(Referring Expression Comprehension,REC)技术,特别涉及基于REC的目标检测技术。
背景技术
常规的目标检测技术是指给定一幅输入图像,寻找出图像中所有指定类别的目标并给出它们的位置,随着人工智能技术在多个行业中的广泛应用,在许多场景中,我们需要算法根据人的需求有针对性地寻找特定目标(如:在一幅监控图中寻找一个穿着红色衣服的小女孩),常规目标检测算法已经不能满足各种差异化的需求。表达理解算法REC是一种结合了计算机视觉和自然语言处理的多模态检测技术,它能根据一句输入的语言在输入图像中找到语言描述的目标。REC旨在解决语言和图像的对齐问题,也是多模态的基础技术之一,被应用在图文检索、视觉问答、机器导航等任务中。
目前的REC主要分为单阶段方法和双阶段算法两类,其中双阶段方法指先提取出输入图像中所有可能的候选目标,再在这些候选目标中选择出最符合描述的目标,这种方法由于需要先检测出所有目标再进行选择,计算量很大,速度也很慢;同时,需要检测的目标可能在第一阶段中没有被标注出,这将导致第二阶段的错误执行,因此双阶段方法的性能高度依赖于提取的候选目标的质量。单阶段方法是指在分别提取图像和语言特征后,对两种特征进行融合,并使用融合后的特征直接预测符合语言描述的目标在图像中的位置,该方法有着计算量更小,速度更快的特点。
在实际应用场景中,我们常常需要借助一个物体与周围物体的相对关系来对其进行描述如:打着绿色伞的男人,此种情况下,如果仅寻找目标本身,而不对其周围的视觉上下文进行考虑,网络难以正确定位目标。因此,REC任务是上下文敏感的,现有的单阶段方法没有考虑周围环境对该点的影响。
发明内容
本发明所要解决的技术问题是,提供一种通过增强单阶段REC算法中视觉上下文利用能力从而提高检测准确率的目标检测方法。
本发明为解决上述技术问题所采用的技术方案是,一种基于多尺度语言嵌入REC的目标检测方法,包括以下步骤:
步骤1)接收输入的图像与语言,分别提取图像特征和语言特征;
步骤2)获取最终局部融合特征:
步骤2-1)计算图像特征中每个特征点与语言特征的相似度得到图像-语言响应谱,利用图像-语言响应谱加强图像特征得到局部初步融合特征;
步骤2-2)计算局部初步融合特征中每个特征点的N种尺度邻近区域与语言特征的相似度得到N个上下文响应谱,分别利用N个局部上下文融合特征,再融合N个加强后的局部初步融合特征得到最终局部融合特征;N为大于等于2的整数;
步骤3)计算图像特征与语言特征的全局融合特征,同时添加位置信息,得到带位置信息的全局融合特征;
步骤4)根据最终局部融合特征和带位置信息的全局融合特征完成对待检测目标位置的预测。
现有的单阶段方法在视觉特征谱空间域上每一个点独立地计算与语言的相似度,没有考虑周围环境对该点的影响。本发明把语言特征转化为不同尺度的卷积核,并与视觉特征进行卷积,得到语言特征与视觉特征每个点及其周围的点的相似度,将得到的相似度谱作用回原始视觉特征上,加强与语言相关的视觉特征的表达,同时引入全局视觉语言相互作用信息及位置信息,预测被描述的目标的位置。
本发明的有益效果是,提升了网络对于视觉上下文的利用能力,相比于基准的普通单阶段算法,预测准确率更高。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110222614.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:旋耕机防粘连装置
- 下一篇:处理信息的方法、装置、设备和存储介质