[发明专利]基于跨模态文本检索注意力机制的文本指导图像分割方法在审
申请号: | 202110952433.7 | 申请日: | 2021-08-19 |
公开(公告)号: | CN113657400A | 公开(公告)日: | 2021-11-16 |
发明(设计)人: | 刘宇;陈鹏;单世民;李新宇;徐凯平 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 辽宁鸿文知识产权代理有限公司 21102 | 代理人: | 杨植 |
地址: | 116024*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 跨模态 文本 检索 注意力 机制 指导 图像 分割 方法 | ||
1.一种基于跨模态文本检索注意力机制的文本指导图像分割方法,其特征在于,步骤如下:
(1)特征提取:
对输入自然语言文本和RGB图片进行特征提取;
对于自然语言文本,使用one-hot方法将每个单词表示为向量,将该向量嵌入成低维向量后输入LSTM长短时记忆网络,将最终隐藏态作为整个自然语言文本的文本表示向量Fl;
对于RGB图片,采用ResNet-1O1卷积神经网络的Res3,Res4,Res5层提取图片特征作为视觉特征在三层特征图使用相同处理步骤,视觉特征统称为Fv;其中卷积神经网络采用DeepLab语义分割模型预训练参数作为初始参数;之后将每个视觉特征向量的位置坐标嵌入视觉特征Fv中,具体过程如下:
对于长宽为w,h的视觉特征图,其中w=h=40;以视觉特征图的中心位置作为坐标原点(0,0),特征图左上角位置坐标记为(-1,-1),右下角位置坐标记为(+1,+1),特征图中第i行j列的像素空间位置坐标为
最后将视觉特征Fv与文本表示向量Fl级联后映射至500维的文本图像多模态特征空间M;
(2)图文信息深度融合:
将步骤(1)中生成的文本表示向量Fl与多模态特征空间M中的每个位置做哈达玛乘积实现对二者多模态信息的建模,实现文本与图像信息深度融合至统一的多模态混合特征空间M′;
(3)深层次关系捕捉:
将步骤(1)中生成的文本表示向量Fl作为注意力机制的查询向量,步骤(2)生成的多模态混合特征空间M′作为检索区域,使用基于文本的跨模态注意力机制查询多模态混合特征空间中与文本相似区域,生成具有定位目标物体的特征图R;
(4)多层级特征混合:
步骤(1)中采用的ResNet101视觉编码器能够得到三个来自Res3,Res4,Res5层级的视觉特征Fv;在获取方法预测的最终结果需要将三个层级的特征进行混合;
使用R(i)表示步骤(3)生成的第i层的混合信息特征图i∈{3,4,5};由于R(i)属于不同层深层次关系捕捉模块输出的特征图,具有着不同的通道维度;首先使用1×1卷积将所有不同层的混合特征图通道压缩成相同维度数,将映射后的输出结果记为X(i);之后对于第i个层级,使用一个记忆门单元m(i)和重置门单元联合控制最终结果的生成,记忆门单元m(i)和重置门单元r(i)的作用类似于长短时记忆网络中的门控单元,控制着对应层中特征对于最终结果的贡献度,贡献度权重比例越高,意味着对应层语义信息提供的越多,所处特征层越重要;此外还包含一个上下文控制器C(i),用来表示其他层流至第i层特征的信息;门控多层级混合能够有效融合来自不同层级的特征语义信息,通过学习训练的手段自动生成最佳权重比例,使模型结果更加准确,提高模型的分割细节精度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110952433.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种汽车后保尾管的检测装置
- 下一篇:一种致密构件的制备方法