[发明专利]一种基于多尺度语言嵌入REC的目标检测方法有效
申请号: | 202110222614.4 | 申请日: | 2021-02-25 |
公开(公告)号: | CN112926662B | 公开(公告)日: | 2022-05-03 |
发明(设计)人: | 赵泰锦;李宏亮;邱荷茜;孟凡满;吴庆波;许林峰 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06V10/80 | 分类号: | G06V10/80;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 电子科技大学专利中心 51203 | 代理人: | 邹裕蓉 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 尺度 语言 嵌入 rec 目标 检测 方法 | ||
1.一种基于多尺度语言嵌入REC的目标检测方法,其特征在于,包括以下步骤:
步骤1)接收输入的图像与语言,分别提取图像特征和语言特征;
步骤2)获取最终局部融合特征:
步骤2-1)计算图像特征中每个特征点与语言特征的相似度得到图像-语言响应谱,利用图像-语言响应谱加强图像特征得到局部初步融合特征;
步骤2-2)计算局部初步融合特征中每个特征点的N种尺度邻近区域与语言特征的相似度得到N个上下文响应谱,分别利用N个局部上下文融合特征,再融合N个加强后的局部初步融合特征得到最终局部融合特征;N为大于等于2的整数;
步骤3)计算图像特征与语言特征的全局融合特征,同时添加位置信息,得到带位置信息的全局融合特征;
步骤4)根据最终局部融合特征和带位置信息的全局融合特征完成对待检测目标位置的预测。
2.如权利要求1所述方法,其特征在于,步骤2-1)具体如下:
先使语言特征fl的维度与图像特征fv的维度相同;
将统一维度的语言特征fl与图像特征fv点乘,再用Softmax函数对点乘结果进行映射并乘上图像特征fv的尺寸得到图像-语言响应谱Mg;
将图像-语言响应谱Mg与图像特征fv求哈达玛积得到初步融合的局部多模态特征fmp。
3.如权利要求2所述方法,其特征在于,通过全连接层实现语言特征fl的维度改变,使得语言特征fl的维度与图像特征fv的维度相同。
4.如权利要求1所述方法,其特征在于,步骤2-2)具体如下:
将语言特征的维度改变到N种不同尺度,确定的N种不同尺度的卷积核后将N种不同尺度的语言特征分别与图像特征fv做二维卷积,得到N个不同上下文响应谱
将fmp分别与N个不同上下文响应谱点乘,得到N个二次融合的局部多模态特征并进行拼接,再使拼接后的二次融合的局部多模态特征的维度与图像特征fv的维度相同,得到最后的局部多模态特征fmu。
5.如权利要求4所述方法,其特征在于,N=3;使用3个独立全连接层将语言特征的维度从Cl改变到3种不同尺度Cv,Cv*9,Cv*25,Cv表示图像特征fv的维度;将3种不同尺度的语言特征分别与图像特征fv做二维卷积是使用的3种卷积核分别为表示实数域。
6.如权利要求1所述方法,其特征在于,步骤3)具体如下:
得到图像特征fv的全局图像特征fvg;
使语言特征fl的维度与图像特征fv的维度相同;将统一维度的语言特征fl与全局图像特征fvg求哈达玛积,得到全局融合特征fmg;再将全局融合特征fmg扩充成Cv*H*W的矩阵;Cv表示图像特征fv的维度,H和W分别表示图像特征fv的长和宽;
同时,得到图像特征的坐标谱coord,i与j分别表示图像特征fv的特征点的横、纵坐标;
将扩充后的全局融合特征fmg与坐标谱coord先拼接,再对拼接结果的维度改变到图像特征fv的维度相同,得到包含位置信息的全局融合特征fpg。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110222614.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:旋耕机防粘连装置
- 下一篇:处理信息的方法、装置、设备和存储介质