[发明专利]一种基于深度LSTM网络的图像描述生成方法有效

申请号：	201611022441.7	申请日：	2016-11-16
公开（公告）号：	CN106650789B	公开（公告）日：	2023-04-07
发明（设计）人：	王瀚漓;汤鹏杰	申请（专利权）人：	同济大学
主分类号：	G06V10/82	分类号：	G06V10/82;G06V10/764;G06V10/80;G06V10/774;G06N3/0464;G06N3/0442;G06N3/045
代理公司：	上海科盛知识产权代理有限公司 31225	代理人：	宣慧兰
地址：	200092 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度 lstm 网络图像描述生成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度LSTM网络的图像描述生成方法，其特征在于，包括以下步骤：

1)提取图像描述数据集中图像的CNN特征并获取与图像对应描述参考句子中单词的嵌入式向量；

2)建立双层LSTM网络，其中，第一层LSTM以单词的嵌入式向量为输入，第二层LSTM以第一层LSTM的输出和CNN网络输出的图像的CNN特征为输入，并结合双层LSTM网络和CNN网络进行序列建模生成多模LSTM模型；

3)采用联合训练的方式对多模LSTM模型进行训练，将CNN网络和LSTM网络中的参数进行联合优化；

31)构建目标函数O，并获取使得损失函数最小的优化参数集合(θ₁,θ₂)：

θ₁为CNN网络的参数集合，θ₂为LSTM网络的参数集合，X₂为图像描述数据集中的输入图像，S为与X₂对应的描述参考句子，f(g)表示系统函数，为损失函数，N₂为训练LSTM网络时，一次迭代中所使用的样本总数，L_k为第k个样本所对应的参考句子的长度，为第k张图像对应的描述参考句子的第t个单词，为生成的第k张图像的第t个单词，为输入的第k张图像，为第k张图像的参考句子的第t-1个单词，为实数域；

32)采用链式法则计算误差并采用随机梯度下降的方法对误差进行修正；

33)将误差回传到CNN网络中，将每条句子中每个单词的的误差进行求和，并逐层向前传递，完成优化；

4)逐层增加多模LSTM模型中LSTM网络的层次，每增加一层并进行训练，直至生成图像描述句子的质量性能不再提升，最终获得逐层多目标优化及多层概率融合的图像描述模型；

5)将逐层多目标优化及多层概率融合的图像描述模型中多层LSTM网络中各分支输出的概率分值进行融合，采用共同决策的方式，将概率最大对应的单词输出。

2.根据权利要求1所述的一种基于深度LSTM网络的图像描述生成方法，其特征在于，所述的步骤1)具体包括以下步骤：

11)将图像描述数据集中的图像缩放至256×256大小；

12)在图像上随机截取5个224×224大小的图像块，并将其进行水平翻转，对数据集进行扩充；

13)设置CNN网络中的卷积层和分类层的学习率调整因子和权值衰减因子为原来的1/10；

14)加载在Imagenet数据集上已优化完毕的参数对模型进行初始化；

15)将各图像块输入CNN网络，提取图像的CNN特征，该CNN特征维度为1000维。

3.根据权利要求1所述的一种基于深度LSTM网络的图像描述生成方法，其特征在于，所述的步骤2)具体包括以下步骤：

21)构建双层LSTM网络中的LSTM单元，并设置输入门、输出门、遗忘门和记忆单元；