[发明专利]一种基于长短时记忆网络变体的图像描述生成方法有效

申请号：	202010129973.0	申请日：	2020-02-28
公开（公告）号：	CN111368898B	公开（公告）日：	2022-10-25
发明（设计）人：	王瀚漓;杨龙雨	申请（专利权）人：	同济大学
主分类号：	G06V10/82	分类号：	G06V10/82;G06V10/774;G06N3/04;G06N3/08
代理公司：	上海科盛知识产权代理有限公司 31225	代理人：	翁惠瑜
地址：	200092 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于短时记忆网络变体图像描述生成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于长短时记忆网络变体的图像描述生成方法，其特征在于，该方法利用一图像描述模型生成待识别图像的图像描述，所述图像描述模型包括卷积神经网络、图像特征编码模块和描述生成模块，所述卷积神经网络获得待识别图像的初始图像特征，所述图像特征编码模块对初始图像特征进行处理，所述图像特征编码模块的输出和所述初始图像特征同时作为描述生成模块的输入，所述描述生成模块中，基于注意力机制和长短时记忆网络变体生成描述句子；

所述描述生成模块包括依次连接的第二LSTM、注意力网络和CaptionNet网络，所述第二LSTM用于描述CaptionNet网络输出的前面时间步生成的句子信息，生成前面时间步词特征，所述注意力网络用于生成局部注意力图像特征，所述CaptionNet网络为LSTM变体，其输入门和细胞输入仅以所述局部注意力图像特征作为输入，其遗忘门和输出门同时以所述局部注意力图像特征和前面时间步词特征作为输入。

2.根据权利要求1所述的基于长短时记忆网络变体的图像描述生成方法，其特征在于，所述图像特征编码模块的处理过程具体为：

将初始图像特征变换为序列图像特征，按照序列次序依次将所述序列图像特征输入至第一LSTM中，获取带有语义信息的全局图像特征。

3.根据权利要求2所述的基于长短时记忆网络变体的图像描述生成方法，其特征在于，所述初始图像特征依次经过两个全连接层和一个ReLU激活函数后变换为所述序列图像特征。

4.根据权利要求2所述的基于长短时记忆网络变体的图像描述生成方法，其特征在于，所述第一LSTM中，在时间步j，第一LSTM的隐藏层和细胞层的计算方式为：

其中，v_j为序列图像特征中的元素。

5.根据权利要求1所述的基于长短时记忆网络变体的图像描述生成方法，其特征在于，所述卷积神经网络输出的初始图像特征经维数变换后输入所述描述生成模块。

6.根据权利要求1所述的基于长短时记忆网络变体的图像描述生成方法，其特征在于，所述第二LSTM中，在时间步t，第二LSTM的隐藏层和细胞层的计算方式为：

其中，x_t＝ReLU(W_eω_t-1)是词嵌入向量，ω_t-1是上一个词的one-hot向量，W_e是待学习的参数。

7.根据权利要求1所述的基于长短时记忆网络变体的图像描述生成方法，其特征在于，在时间步t，所述局部注意力图像特征的计算公式为：

其中，V_t^a是局部注意力图像特征，α_ti是概率分布，V_i^h是经维数变换后的初始图像特征中的元素，K是图像特征的个数。

8.根据权利要求1所述的基于长短时记忆网络变体的图像描述生成方法，其特征在于，所述CaptionNet网络中，在时间步t，CaptionNet网络的隐藏层和细胞层的计算方式为：

其中，是第二LSTM的隐藏层，是上一个时间步CaptionNet网络的隐藏层和细胞层，V_t^a是局部注意力图像特征，是图像特征编码模块的输出。