[发明专利]一种基于视觉增强gLSTM的图像描述生成方法在审
申请号: | 201910005249.4 | 申请日: | 2019-01-03 |
公开(公告)号: | CN109740599A | 公开(公告)日: | 2019-05-10 |
发明(设计)人: | 张静;王振坤;赵贤文;王喆;李冬冬 | 申请(专利权)人: | 华东理工大学 |
主分类号: | G06K9/32 | 分类号: | G06K9/32;G06K9/46 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 200237 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视觉增强 图像描述 兴趣区域 密集区域 兴趣点 语句 图像 分割图像 生成图像 稀疏区域 引导信息 关键点 有效地 分割 | ||
1.一种基于视觉增强gLSTM的图像描述生成方法,其特征包括以下步骤:
(1)通过高斯差分检测算子检测图像关键点;
(2)过滤图像关键点,保留密集点区域;
(3)扩展关键点为7×7像素的矩形框,并分割为兴趣区域;
(4)将图像兴趣区域输入卷积神经网络提取特征;
(5)图像特征和文本词袋模型特征进行典型相关分析计算,得到图像映射特征;
(6)将图像的映射特征作为gLSTM的引导信息生成描述语句。
2.根据权利要求1所述的方法,其特征在于步骤(1)中,使用高斯差分检测算子检测图像关键点。
3.根据权利要求1所述的方法,其特征在于步骤(2)中过滤图像关键点,其具体步骤如下:
(31)统计每一个初始关键点在预定义3×3像素滑窗内周围的关键点数量;
(32)针对每个图像统计初始关键点阈值:图像初始关键点数量小于等于70时,定义阈值为1;图像初始关键点数量大于70且小于等于450时,定义阈值为3;图像初始关键点数量大于450且小于等于950时,定义阈值为4;图像初始关键点数量大于950时,定义阈值为5;
(33)每一个初始关键点周围的关键点数量大于等于阈值判断为1,表示保留该点;否则判断为0,表示移除该点。
4.根据权利要求1所述的方法,其特征在于步骤(3)中,以初始关键点为中心,扩展为7×7像素的黑色矩形框,并对图像中该区域进行分割,具体步骤如下:
(41)从原图像的中间列向左统计图像每一列中关键点扩展区域的黑色像素数量,并计算相邻两列扩展区域像素点数量差,若差异大于阈值50,则选定该列为兴趣区域左侧边界;
(42)从原图像的中间列向右统计图像每一列中关键点扩展区域的黑色像素数量,并计算相邻两列扩展区域像素点数量差,若差异大于阈值50,则选定该列为兴趣区域右侧边界。
5.根据权利要求1所述的方法,其特征在于步骤(4)中,通过将图像兴趣区域部分输入VGG16卷积神经网络,提取最后全连接层的特征。
6.根据权利要求1所述的方法,其特征在于步骤(5)中对图像特征和文本词袋模型特征进行典型相关分析计算,其具体步骤如下:
(51)通过词袋模型计算文本特征向量;
(52)通过对图像特征和文本特征的典型相关分析计算将两者映射到同一特征空间。
7.根据权利要求1所述的方法,其特征在于步骤(6)中,将图像特征和基于兴趣区域的引导信息输入gLSTM中生成图像描述语句。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东理工大学,未经华东理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910005249.4/1.html,转载请声明来源钻瓜专利网。