[发明专利]基于跨模态文本检索注意力机制的文本指导图像分割方法在审
申请号: | 202110952433.7 | 申请日: | 2021-08-19 |
公开(公告)号: | CN113657400A | 公开(公告)日: | 2021-11-16 |
发明(设计)人: | 刘宇;陈鹏;单世民;李新宇;徐凯平 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 辽宁鸿文知识产权代理有限公司 21102 | 代理人: | 杨植 |
地址: | 116024*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 跨模态 文本 检索 注意力 机制 指导 图像 分割 方法 | ||
一种基于跨模态文本检索注意力机制的文本指导图像分割方法,该方法将文本作为查询向量,多模态特征作为检索空间,自适应关注多模态特征空间中与文本相似区域,定位目标物体。该方法包括:特征提取、图文信息深度融合、深层次关系捕捉和多层级特征混合。采用卷积网络和长短时记忆网络提取视觉、语言特征;使用哈达玛积将视觉、语言特征信息深度融合;采用基于文本查询的注意力机制获取图片场景中与文本描述相似区域,最后将多个层级的特征混合分割目标物体。该方法能够在复杂场景下有效提高定位目标的准确度,实现区域的精确分割。
技术领域
本发明属于计算机视觉与自然语言处理的交叉技术领域,涉及一种基于跨模态文本检索注意力机制的文本指导图像分割方法。
背景技术
文本指导图像分割任务的目标是根据给定的自然语言定位和分割出文本所描述的物体或区域。它不仅可以识别固定类别,同时能够理解表达丰富多变的自然语言。相比于普通的图像分割任务,该任务能够建立起人类与计算机直接快速沟通的桥梁,在实际应用中更加符合直观需求,可方便应用在人机交互、图片编辑等日常生活中,具有广泛的商用价值及深远的研究意义。文本指导图像分割任务要求计算机对所观察场景下物体的认识不仅停留在“认知”的层面,同时要对物体的种类、大小、形状等属性以及与周边物体之间的相关性正确“理解”。需要将文本与图像的特征信息映射统一,根据语言中提及的物体关系对图片中多实体关系进行推理正确定位,并且需要对定位区域精确分割。
现阶段的文本指导图像分割方法大多采用将文本特征与图像视觉特征直接相加或者级联的简单方式整合多模态信息逐像素分割预测结果。然而这种简单的融合方式低估了文本与图像信息交互的重要性,忽略了文本对于图像信息的引导决策,同时缺乏模型的可解释性。很大程度影响了模型定位目标的准确性,导致模型预测出错误的物体所在区域。
发明内容
为了克服上述现有技术的缺点,本发明提供了一个基于跨模态文本检索注意力机制的文本指导图像分割方法,通过使用自然语言文本显式地检索多模态特征空间,最终指导分割结果的生成。该方法在复杂文本描述或具有多个同类别物体的场景下,能有效的提高分割结果地准确性。
为了实现上述目的,本发明采用的技术方案是:
基于跨模态文本检索注意力机制的文本指导图像分割方法,其包括步骤:
(1)特征提取:
对输入自然语言文本和RGB图片进行特征提取。
对于自然语言文本,使用one-hot方法将每个单词表示为向量,将该向量嵌入成低维向量后输入LSTM长短时记忆网络,将最终隐藏态作为整个自然语言文本的文本表示向量Fl。
对于RGB图片,采用ResNet-101卷积神经网络的Res3,Res4,Res5层提取图片特征作为视觉特征在三层特征图使用相同处理步骤,为方便表示视觉特征统称为Fv。其中卷积神经网络采用DeepLab语义分割模型预训练参数作为初始参数,使用DeepLab预训练参数能有效的减少网络训练时间,提高网络的泛化能力。之后将每个视觉特征向量的位置坐标嵌入视觉特征Fv中,具体过程:对于长宽为w,h的视觉特征图,其中w=h=40。以视觉特征图的中心位置作为坐标原点(0,0),特征图左上角位置坐标记为(-1,-1),右下角位置坐标记为(+1,+1),特征图中第i行j列的像素空间位置坐标为
最后将视觉特征Fv与文本表示向量Fl级联后映射至500维的文本图像多模态特征空间M。
(2)图文信息深度融合:
将步骤(1)中生成的文本表示向量Fl与多模态特征空间M中的每个位置做哈达玛乘积实现对二者多模态信息的建模,实现文本与图像信息深度融合至统一的多模态混合特征空间M′,有利于后面模块对于目标物体所在区域的正确定位。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110952433.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种汽车后保尾管的检测装置
- 下一篇:一种致密构件的制备方法