[发明专利]一种基于视觉增强gLSTM的图像描述生成方法在审
申请号: | 201910005249.4 | 申请日: | 2019-01-03 |
公开(公告)号: | CN109740599A | 公开(公告)日: | 2019-05-10 |
发明(设计)人: | 张静;王振坤;赵贤文;王喆;李冬冬 | 申请(专利权)人: | 华东理工大学 |
主分类号: | G06K9/32 | 分类号: | G06K9/32;G06K9/46 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 200237 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视觉增强 图像描述 兴趣区域 密集区域 兴趣点 语句 图像 分割图像 生成图像 稀疏区域 引导信息 关键点 有效地 分割 | ||
本发明公开了一种基于视觉增强gLSTM的图像描述生成方法。该方法通过分割图像的兴趣区域并提取CNN特征作为gLSTM模型的引导信息,在此基础上生成描述语句。兴趣区域是从图像中提取关键点,并在此基础上扩展为兴趣点区域得到的。然后将兴趣点密集区域和稀疏区域分割开,密集区域就是兴趣区域。接下来对图像兴趣区域提取CNN特征,将该特征作为gLSTM模型的视觉增强信息来生成图像描述语句。实验表明,该视觉增强方法可以有效地改善图像描述的结果,提升图像描述方法的准确性。
技术领域
本发明主要涉及图像理解领域,具体涉及一种基于视觉增强gLSTM的图 像描述生成方法。
背景技术
图像描述是计算机视觉的重要研究内容之一,也是当前的热点之一。其过 程就是对给定图像生成语句来描述图像的内容。
图像描述的过程借鉴了机器翻译,通过卷积神经网络和循环神经网络的 结合构建编码-解码的框架,提取图像的卷积特征并用于生成图像的描述语句。
发明内容
本发明的目的在于提出一种基于视觉增强gLSTM的图像描述生成方法, 通过卷积神经网络提取图像特征,结合文本特征训练循环神经网络来生成图像描 述语句。
本发明的技术方案如下:
(1)检测图像关键点:先对图像做不同程度的高斯平滑,再对这些图像做 差分构成高斯金字塔提取图像关键点;
(2)过滤图像关键点,保留密集点区域:对每一个初始关键点统计其在预 定义3×3像素滑窗内周围的关键点数量,并与阈值比较判断是否保留该关键点;
(3)扩展关键点,获取兴趣区域:以关键点为中心,扩展为7×7像素的 黑色矩形框,然后从图像的中间列向两侧统计相邻两列的扩展区域像素点的像素 差,并根据阈值确定兴趣区域;
(4)提取图像特征:将图像输入预训练的VGG16卷积神经网络,并提取 最后一层全连接层的向量作为图像特征;
(5)映射图像特征和文本特征:计算文本词袋模型的特征向量,并将图像 特征和文本特征映射到同一空间得到引导信息;
(6)生成图像描述语句:将图像特征和基于兴趣区域的引导信息输入gLSTM中生成图像描述语句。
附图说明
图1基于视觉增强gLSTM的图像描述生成方法流程图
图2卷积神经网络VGG16示意图
图3视觉增强gLSTM网络模块示意图
具体实施方式
下面结合附图对本发明作进一步详细说明。
本发明所述的基于视觉增强gLSTM的图像描述生成方法流程图如图1所 示,图1包括8个单元。
单元100为高斯差分。高斯差分是使用高斯函数对图像进行平滑计算的 过程,高斯函数如下所示:
其中x和y分别表示图像的宽和高,σ表示正态分布的标准差,高斯平滑的结果 L如下所示:
L(x,y,σ)=G(x,y,σ)×I(x,y)
其中I表示待检测图像,高斯差分的计算如下所示:
D(x,y,σ,k)=L(x,y,kσ)-L(x,y,σ)
单元101为检测关键点。通过高斯差分计算得到初始关键点,定义为其中Si表示第i个图像中的关键点的数量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东理工大学,未经华东理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910005249.4/2.html,转载请声明来源钻瓜专利网。