[发明专利]基于跨模态文本检索注意力机制的文本指导图像分割方法在审

申请号：	202110952433.7	申请日：	2021-08-19
公开（公告）号：	CN113657400A	公开（公告）日：	2021-11-16
发明（设计）人：	刘宇;陈鹏;单世民;李新宇;徐凯平	申请（专利权）人：	大连理工大学
主分类号：	G06K9/34	分类号：	G06K9/34;G06K9/46;G06K9/62;G06N3/04;G06N3/08
代理公司：	辽宁鸿文知识产权代理有限公司 21102	代理人：	杨植
地址：	116024***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于跨模态文本检索注意力机制指导图像分割方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于跨模态文本检索注意力机制的文本指导图像分割方法，其特征在于，步骤如下：

(1)特征提取：

对输入自然语言文本和RGB图片进行特征提取；

对于自然语言文本，使用one-hot方法将每个单词表示为向量，将该向量嵌入成低维向量后输入LSTM长短时记忆网络，将最终隐藏态作为整个自然语言文本的文本表示向量F_l；

对于RGB图片，采用ResNet-1O1卷积神经网络的Res3，Res4，Res5层提取图片特征作为视觉特征在三层特征图使用相同处理步骤，视觉特征统称为F_v；其中卷积神经网络采用DeepLab语义分割模型预训练参数作为初始参数；之后将每个视觉特征向量的位置坐标嵌入视觉特征F_v中，具体过程如下：

对于长宽为w，h的视觉特征图，其中w＝h＝40；以视觉特征图的中心位置作为坐标原点(0，0)，特征图左上角位置坐标记为(-1，-1)，右下角位置坐标记为(+1，+1)，特征图中第i行j列的像素空间位置坐标为

最后将视觉特征F_v与文本表示向量F_l级联后映射至500维的文本图像多模态特征空间M；

(2)图文信息深度融合：

将步骤(1)中生成的文本表示向量F_l与多模态特征空间M中的每个位置做哈达玛乘积实现对二者多模态信息的建模，实现文本与图像信息深度融合至统一的多模态混合特征空间M′；

(3)深层次关系捕捉：

将步骤(1)中生成的文本表示向量F_l作为注意力机制的查询向量，步骤(2)生成的多模态混合特征空间M′作为检索区域，使用基于文本的跨模态注意力机制查询多模态混合特征空间中与文本相似区域，生成具有定位目标物体的特征图R；

(4)多层级特征混合：

步骤(1)中采用的ResNet101视觉编码器能够得到三个来自Res3，Res4，Res5层级的视觉特征F_v；在获取方法预测的最终结果需要将三个层级的特征进行混合；

使用R⁽ⁱ⁾表示步骤(3)生成的第i层的混合信息特征图i∈{3，4，5}；由于R⁽ⁱ⁾属于不同层深层次关系捕捉模块输出的特征图，具有着不同的通道维度；首先使用1×1卷积将所有不同层的混合特征图通道压缩成相同维度数，将映射后的输出结果记为X⁽ⁱ⁾；之后对于第i个层级，使用一个记忆门单元m⁽ⁱ⁾和重置门单元联合控制最终结果的生成，记忆门单元m⁽ⁱ⁾和重置门单元r⁽ⁱ⁾的作用类似于长短时记忆网络中的门控单元，控制着对应层中特征对于最终结果的贡献度，贡献度权重比例越高，意味着对应层语义信息提供的越多，所处特征层越重要；此外还包含一个上下文控制器C⁽ⁱ⁾，用来表示其他层流至第i层特征的信息；门控多层级混合能够有效融合来自不同层级的特征语义信息，通过学习训练的手段自动生成最佳权重比例，使模型结果更加准确，提高模型的分割细节精度。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于大连理工大学，未经大连理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110952433.7/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于跨模态文本检索注意力机制的文本指导图像分割方法在审

专利文献下载