[发明专利]一种基于注意力融合的图像描述生成方法在审

专利信息
申请号: 202010237438.7 申请日: 2020-03-30
公开(公告)号: CN111444968A 公开(公告)日: 2020-07-24
发明(设计)人: 徐立芳;田朋;莫宏伟;姜来浩;许贵亮;杨帆 申请(专利权)人: 哈尔滨工程大学
主分类号: G06K9/62 分类号: G06K9/62;G06N3/04;G06N3/08
代理公司: 暂无信息 代理人: 暂无信息
地址: 150001 黑龙江省哈尔滨市南岗区*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 注意力 融合 图像 描述 生成 方法
【说明书】:

发明提供的是一种基于注意力融合的图像描述生成方法。使用ResNet‑101作为Faster R‑CNN特征提取网络,基于空间注意力和高层语义注意力融合的图像描述模型使用Faster R‑CNN作为编码器提取图像中物体和显著视觉区域的位置和名称,将目标对应的特征向量和名称分别作为空间注意力机制和高层语义注意力机制的输入,经过注意力模型整合处理后送入解码器,最终由解码器生成单词序列。本发明克服了直接划分图像得到的空间注意力不能准确地提取图像中目标对应特征的问题,提高图像描述的效果。

技术领域

本发明涉及的是一种语言处理技术和图像描述方法,具体涉及一种基于注意力融合的图像描述生成方法。

背景技术

图像描述是计算机视觉和自然语言处理领域交叉的研究课题,是人工智能中的研究热点,与图像分类、目标检测等图像理解任务不同,图像描述不仅要识别出图像中的目标,而且要理解目标之间的关系,并使用自然语言正确地表达出来,因此图像描述具有很大挑战性。图像描述在图像检索、人机交互以及智能监控等领域具有广阔的应用前景。近年来,图像描述是人工智能领域的一个研究热点,旨在让机器变得更智能,图像描述能够让机器像人一样看懂理解图像,从而实现基于视觉的人机交互,提高人与机器交流的效率。

发明内容

本发明的目的在于提供一种能准确地提取图像中目标对应特征,提高图像描述的准确率的基于注意力融合的图像描述生成方法。

本发明的目的是这样实现的:

使用ResNet-101作为Faster R-CNN特征提取网络,基于空间注意力和高层语义注意力融合的图像描述模型使用Faster R-CNN作为编码器提取图像中物体和显著视觉区域的位置和名称,将目标对应的特征向量和名称分别作为空间注意力机制和高层语义注意力机制的输入,经过注意力模型整合处理后送入解码器,最终由解码器生成单词序列。

本发明可以用如下步骤进行描述:

步骤1、Faster R-CNN物体检测模块作为编码器用于对输入的图像进行目标物体检测,并同时检测出图像中目标物体的位置和名词属性,将其分别作为高层语义注意力和空间注意力来同时指导单词序列的生成;

步骤2、使用Faster R-CNN模型对输入图像进行检测,对其输出使用非极大值抑制,并在其中筛选置信度大于0.3的目标作为注意力机制的输入;对于被检测到的目标物体,其空间位置对应在ResNet-101最后一层卷积层的特征图,将经过平均池化处理的图像特征向量作为空间注意机制的输入,其名称属性经过词嵌入表示为512维的名称属性向量作为高层语义注意力的输入;

步骤3、将ResNet-101最后一层卷积层的特征图进行平均池化处理后的图像全局特征向量作为编码器初始时刻时的输入,图像中目标对应的图像特征向量和名称属性向量经过注意力机制的分配在解码器生成单词的过程中来动态地指导单词序列的生成;

步骤4、Faster R-CNN同时检测提供空间注意力和高层语义注意力,在Faster R-CNN算法中,目标的名称属性是通过目标对应的图像特征信息经过推断得到的,目标对应的图像特征隐式地包含目标名称属性信息;

步骤5、使用的注意力模型根据选取目标对应的特征向量{v1,v2,...,vn}、目标对应的名称属性向量{a1,a2,...,aL}和解码器中长短期记忆网络上一时刻的隐藏状态hi-1来决定当前时间选取的特征向量和名称属性向量的权重αij

eij=fatt(hi-1,vj,aj) (1)

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010237438.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top