[发明专利]一种基于深度LSTM网络的图像描述生成方法有效
申请号: | 201611022441.7 | 申请日: | 2016-11-16 |
公开(公告)号: | CN106650789B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 王瀚漓;汤鹏杰 | 申请(专利权)人: | 同济大学 |
主分类号: | G06V10/82 | 分类号: | G06V10/82;G06V10/764;G06V10/80;G06V10/774;G06N3/0464;G06N3/0442;G06N3/045 |
代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 宣慧兰 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 lstm 网络 图像 描述 生成 方法 | ||
1.一种基于深度LSTM网络的图像描述生成方法,其特征在于,包括以下步骤:
1)提取图像描述数据集中图像的CNN特征并获取与图像对应描述参考句子中单词的嵌入式向量;
2)建立双层LSTM网络,其中,第一层LSTM以单词的嵌入式向量为输入,第二层LSTM以第一层LSTM的输出和CNN网络输出的图像的CNN特征为输入,并结合双层LSTM网络和CNN网络进行序列建模生成多模LSTM模型;
3)采用联合训练的方式对多模LSTM模型进行训练,将CNN网络和LSTM网络中的参数进行联合优化;
31)构建目标函数O,并获取使得损失函数最小的优化参数集合(θ1,θ2):
θ1为CNN网络的参数集合,θ2为LSTM网络的参数集合,X2为图像描述数据集中的输入图像,S为与X2对应的描述参考句子,f(g)表示系统函数,为损失函数,N2为训练LSTM网络时,一次迭代中所使用的样本总数,Lk为第k个样本所对应的参考句子的长度,为第k张图像对应的描述参考句子的第t个单词,为生成的第k张图像的第t个单词,为输入的第k张图像,为第k张图像的参考句子的第t-1个单词,为实数域;
32)采用链式法则计算误差并采用随机梯度下降的方法对误差进行修正;
33)将误差回传到CNN网络中,将每条句子中每个单词的的误差进行求和,并逐层向前传递,完成优化;
4)逐层增加多模LSTM模型中LSTM网络的层次,每增加一层并进行训练,直至生成图像描述句子的质量性能不再提升,最终获得逐层多目标优化及多层概率融合的图像描述模型;
5)将逐层多目标优化及多层概率融合的图像描述模型中多层LSTM网络中各分支输出的概率分值进行融合,采用共同决策的方式,将概率最大对应的单词输出。
2.根据权利要求1所述的一种基于深度LSTM网络的图像描述生成方法,其特征在于,所述的步骤1)具体包括以下步骤:
11)将图像描述数据集中的图像缩放至256×256大小;
12)在图像上随机截取5个224×224大小的图像块,并将其进行水平翻转,对数据集进行扩充;
13)设置CNN网络中的卷积层和分类层的学习率调整因子和权值衰减因子为原来的1/10;
14)加载在Imagenet数据集上已优化完毕的参数对模型进行初始化;
15)将各图像块输入CNN网络,提取图像的CNN特征,该CNN特征维度为1000维。
3.根据权利要求1所述的一种基于深度LSTM网络的图像描述生成方法,其特征在于,所述的步骤2)具体包括以下步骤:
21)构建双层LSTM网络中的LSTM单元,并设置输入门、输出门、遗忘门和记忆单元;
22)获取数据集中描述参考句子的平均长度,并设置每层LSTM的时间步长和隐层单元个数;
23)对单词表中的每个单词采用One-Hot方式进行编码,编码维度为单词表的长度;
24)将描述参考句子中每个单词的One-Hot编码映射为一个嵌入式向量,并设置向量维度;
25)将每个单词的嵌入式向量作为第一层LSTM的输入,并将第一层LSTM的输出和图像CNN特征作为第二层LSTM的输入,建立多模LSTM模型;
27)将双层LSTM网络的最终输出输送到分类层,并采用Softmax函数输出该特征在每个单词上的概率分值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611022441.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:隔离开关故障检测方法
- 下一篇:一种基于蜂群智能的遥感影像聚类方法