[发明专利]一种使用胶囊网络的新型图像描述生成算法在审
申请号: | 202111572920.7 | 申请日: | 2021-12-21 |
公开(公告)号: | CN114386569A | 公开(公告)日: | 2022-04-22 |
发明(设计)人: | 于红;刘晗;刘元秋;刘雨欣 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 辽宁鸿文知识产权代理有限公司 21102 | 代理人: | 苗青 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 使用 胶囊 网络 新型 图像 描述 生成 算法 | ||
一种使用胶囊网络的新型图像描述生成算法,首先使用具有多通道的双线性池化注意模块处理区域级图像特征,通过双线性池化注意力机制和挤压—奖励操作对区域级特征进行处理,得到多通道注意的视觉特征;然后,将多通道特征输入到胶囊网络中,将区域级特征的每一维度作为一个底层胶囊中的活动向量,通过动态路由计算将区域级特征聚合为全局级图像特征;最后,解码使用LSTM的隐藏层向量、图像特征和上一时刻生成的单词词向量作为下一时刻的输入,同时使用双线性池化算法对特征和隐藏层状态进行更新,从而生成对应单词。经过多层LSTM,生成的多个单词组成对应的描述。本发明实现了使用胶囊网络在图像描述生成过程中捕捉相对位置关系并生成了更好的图像描述。
技术领域
本发明属于人工智能领域,主要涉及一种使用胶囊网络的新型图像描述生成算法。
背景技术
图像描述生成任务连接了人工智能领域的两大方向,计算机视觉和自然语言处理。现实生活中,人们可以自动地建立起图像中的场景、物体等视觉特征信息间的联系并感知其中的高层语义信息,但计算机无法像人类大脑一样理解和整理这些信息,而图像描述生成任务的目的就是将图像特征转换为语义信息,为计算机更好地理解图片内容提供帮助。为了实现从图像到文字的转换,早期的相关工作主要从模板和检索两个方面下手,或是将检测到的物体名称填充到语言模板中实现描述的生成,或是检索同类图片并修改同类图片的描述来生成图片描述。但这两种方式具有一定的缺陷:基于模板的方法生成的描述被限制为固定长度,格式不可变;基于检索的方法依赖于数据集,无法适应新的图片,难以生成高质量的图像描述。
目前各种图像描述生成经典方法的框架是编码器-解码器结构,研究主要集中在图像特征处理、注意力机制应用上。图像特征处理方面的工作主要集中在编码器部分,先从图片中提取不同区域、不同层次的特征,再对特征进行处理,从而提高图像描述的质量。比如SCA-CNN方法分析了卷积神经网络空间性、多层级和多通道的特性,结合通道注意力和空间注意力后取得了比较好的效果。而Bottom-up方法通过目标检测和实体识别有选择性地提取图片区域特征,从而生成更准确完善的图片描述。X-Linear方法使用空间和通道的双线性池化获取图像特征的二阶交互,增强模型的表达能力。
注意力机制方面工作的主要目标是增强图像区域和单词之间的相关性,从而获取更多的语义细节。视觉哨兵的方法让注意力机制可以自行决定关注图像或者关注句子,从而生成对应的实体词汇或者介词。回溯和预测的方法将注意力关注拉长至两个单词范围,使描述更加连贯,更加符合人类语言习惯。场景图的方法使得算法能够更加关注到图片中的实体、属性以及实体间的关系,提高描述的准确性。在应用Transformer模型后,注意力机制的改进更加深刻,获得的效果也更好。
目前,对图像特征进行处理从而得到更深层次信息的做法是一个通用方向,可以作为注意力机制的前置做法,进而将两部分融合能够生成更高质量的图像特征表示。现有的视觉注意力机制可以在生成文本序列的过程中关注到图片的不同位置从而选择相对应的单词,但是注意力的转移无法关注到图片中物体间在空间上的相对位置关系。本发明使用胶囊网络改进注意力机制,使其充分利用图像中传递的空间信息从而生成更加准确和详细的描述。
发明内容
针对现有技术存在的问题,本发明提供了一种使用胶囊网络的新型图像描述生成算法,通过变换矩阵捕捉空间相对位置关系,从而解决传统视觉注意力机制无法充分捕捉空间关系的问题。
本发明的技术方案:
一种使用胶囊网络的新型图像描述生成算法,其特征在于,步骤如下:
(1)使用具有多通道的双线性池化注意模块处理区域级图像特征;
取区域级图像特征矩阵F并嵌入特征向量QE、KE、VE,KE和VE均初始化为F,QE初始化为所有区域级图像特征的平均池化
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111572920.7/2.html,转载请声明来源钻瓜专利网。