[发明专利]融合视觉常识和增强多层全局特征的图像描述生成方法有效
申请号: | 202110642157.4 | 申请日: | 2021-06-09 |
公开(公告)号: | CN113378919B | 公开(公告)日: | 2022-06-14 |
发明(设计)人: | 杨有;方小龙;尚晋;胡峻滔;姚露;边雅琳 | 申请(专利权)人: | 重庆师范大学 |
主分类号: | G06V10/80 | 分类号: | G06V10/80;G06K9/62;G06V10/44;G06N3/04;G06N3/08;G06V10/764 |
代理公司: | 重庆莫斯专利代理事务所(普通合伙) 50279 | 代理人: | 刘强 |
地址: | 401331 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 融合 视觉 常识 增强 多层 全局 特征 图像 描述 生成 方法 | ||
本发明涉及计算机视觉技术领域,具体公开了一种融合视觉常识和增强多层全局特征的图像描述生成方法,融合VC R‑CNN提取的视觉常识特征和FasterR‑CNN提取的局部特征,得到融合特征;采用X线性注意力机制挖掘对象之间的视觉语义关系,以获得高层局部特征和多层全局特征;采用AoA机制增强多层全局特征,线性映射得到融合全局特征;利用视觉选择的长短时记忆对融合全局特征进行筛选,并采用X线性注意力机制对高层局部特征加权自适应地选择相关信息,最后使用语义解码的门控线性单元生成输出单词序列。解决了局部特征的图像描述生成模型对视觉语义关系挖掘不充分,且注意力机制提取的多层全局特征存在冗余信息的问题。
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种融合视觉常识和增强多层全局特征的图像描述生成方法。
背景技术
图像描述生成是计算机视觉领域中的高级任务之一,其目的是使计算机自动生成给定图像的自然语言描述。与图像分类和目标检测等低级和中级任务相比,它不仅需要识别图像中显著的物体及其属性,理解他们之间的相互关系,而且要用准确、流畅的自然语言来表达,这是一项极具挑战性的任务。当人类获取信息时,视觉系统会主动关注感兴趣的目标区域,并提取相关的重要信息。受人类视觉系统的启发,注意力机制已广泛应用于机器翻译、图像描述和视觉问答等机器视觉领域。在基于注意力机制的图像描述生成结构中,首先通过卷积神经网络(Convolutional Neural Network,CNN)将图像编码成一组中间图像特征向量,然后采用循环神经网络(Recurrent Neural Network,RNN)将中间图像特征向量翻译成输出的单词序列,注意力机制(Attention Mechanism,AM)在每个时间步长对提取的中间图像特征向量加权平均来指导解码器的单词生成。
在编码部分的特征提取网络后叠加多层注意力机制来挖掘对象之间的视觉语义关系。现有模型一般采用Faster R-CNN[2]提取的局部特征作为输入,但这种方式通常难以描述确切的对象之间的视觉语义关系,即使预测的描述是正确的,潜在的视觉注意力也可能是不合理的。模型期望视觉特征包含了局部特征之间的隐藏常识信息,而不仅仅是视觉表象。
鉴于此,针对局部特征的图像描述生成模型对视觉语义关系挖掘不充分,且注意力机制提取的多层全局特征存在冗余信息的问题,提出一种融合视觉常识和增强多层全局特征的图像描述生成方法是十分有必要。
发明内容
本发明的目的在于提供一种融合视觉常识和增强多层全局特征的图像描述生成方法,旨在解决现有技术中的局部特征的图像描述生成模型对视觉语义关系挖掘不充分,且注意力机制提取的多层全局特征存在冗余信息的技术问题。
为实现上述目的,本发明采用的一种融合视觉常识和增强多层全局特征的图像描述生成方法,包括如下步骤:
利用VC R-CNN和Faster R-CNN对输入图像分别提取视觉常识特征和局部特征;
融合所述VC R-CNN提取的所述视觉常识特征和所述Faster R-CNN提取的所述局部特征,得到融合特征;
采用X线性注意力机制挖掘对象之间的视觉语义关系,以获得高层局部特征和多层全局特征;
采用AoA机制增强所述多层全局特征,线性映射得到融合全局特征;
利用视觉选择的长短时记忆对所述融合全局特征进行筛选,并采用X线性注意力机制对所述高层局部特征加权自适应地选择相关信息,最后使用语义解码的门控线性单元生成输出单词序列。
其中,利用所述VC R-CNN提取所述视觉常识特征的步骤为:
输入图像输入至卷积神经网络,并提取得到第一卷积特征图;
利用因果干预模块挖掘所述第一卷积特征图中区域特征y与区域x的关系,之后采用全连接得到所述视觉常识特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆师范大学,未经重庆师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110642157.4/2.html,转载请声明来源钻瓜专利网。