[发明专利]一种基于长短期记忆模型与目标检测算法的图像描述方法在审

申请号：	201911098782.6	申请日：	2019-11-12
公开（公告）号：	CN110909736A	公开（公告）日：	2020-03-24
发明（设计）人：	高逸凡;王勇	申请（专利权）人：	北京工业大学
主分类号：	G06K9/32	分类号：	G06K9/32;G06N3/04;G06N3/08
代理公司：	北京思海天达知识产权代理有限公司 11203	代理人：	刘萍
地址：	100124 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于短期记忆模型目标检测算法图像描述方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于长短期记忆模型与目标检测算法的图像描述方法，其特征在于：提取图像中各目标区域的特征和全图的特征，然后通过循环神经网络在目标检测算法生成的所有目标区域中选择一个或多个目标区域作为描述中下一个词汇生成的依据，然后将其输入到相关语言模型中，生成相应的词汇。

2.根据权利要求1所述的方法，构建的图像描述模型由以下几个部分构成：

1)基于深度学习图像目标检测的编码模块；

选择Faster-RCNN作为目标检测模型，在结构上，Faster-RCNN已经将特征提取(feature extraction)，候选目标区域(proposal region)提取整合在了一个网络中；取目标检测模型Faster-RCNN中ROIPooling层输出的各目标候选区域特征图v_i及其对应的类别标签l_i作为对图片中含有的数据的初步提取，在下文的解码模块中，将会对提取到的数据进行解码，生成描述语句；

2)基于LSTM的图像目标区域选择及目标词汇生成的解码模块；

模型解码模块中使用到了LSTM模型；共包括3种门Gate：遗忘门f、输入门i和输出门o；在t时刻，LSTM中的状态通过下列公式计算：

遗忘门：f_t＝σ(W_f[h_t-1，x_t]+b_f) (1)

输入门：i_t＝σ(W_i[h_t-1，x_t]+b_i) (2)

细胞状态：

隐含层：h_t＝o_t×tanh(C_t) (5)

输出层：o_t＝σ(W_o[h_t-1，x_t]+b_o) (6)

其中h_t，h_t-1，C_t，C_t-1分别表示t时刻与t-1时刻的隐含层h与细胞状态C的值，f_t，f_t-1，i_t，i_t-1，o_t，o_t-1分别表示t时刻与t-1时刻的遗忘门f、输入门i和输出门o的值，W_f，W_i，W_o分别表示遗忘门f、输入门i和输出门o需要利用反向传播算法来的权重，W_f，W_i，W_o分别表示遗忘门f、输入门i和输出门o需要利用反向传播算法来更新的权重，b_f，b_i，b_o为遗忘门f、输入门i和输出门o需要利用反向传播算法来更新的偏置，为更新细胞状态C_t的过程中产生的中间变量，其权重W_c与偏置b_c同样需要使用反向传播算法来进行学习；在每一个时刻，三种门都由上一时刻的隐藏层h_t-1和当前层x_t通过非线性变换得到；根据遗忘门f_t和输入门i_t，确定当前的细胞状态C_t，进而利用输出门o_t来更新隐藏层h_t；

解码模块由两个LSTM模块和两个Attention模块构成，两个LSTM模型分别为AttentionLSTM和Language LSTM；Attention LSTM的输入包含了目标特征的平均值上一次输出的单词的编码∏_t及上次language LSTM的隐含层，其具体计算过程如式7，8所示；

其中k表示目标检测产生的所有目标候选区域特征图的数目，v_i表示第i个目标的特征向量，表示目标特征的平均值，∏_t为模型输出的前一时刻单词的编码，为LanguageLSTM在t-1时刻的隐藏层值，W_e为该阶段反向传播算法与要学习的权重；表示本模型用到的第一个Attention机制的输入；

经过Attention LSTM处理后，将Attention LSTM的隐含层作为输入第一个Attention模块中利用调整并融合每个目标特征v_i生成第一小Attention模块的具体计算过程如式9，10，11，12所示；

α_t＝softmax(a_t) (11)

其中v_i表示第i个目标的特征向量，表示Attention LSTM在t时刻的隐含层向量，W_va，W_ha是用于调整v_i与的权重矩阵，需要在反向传播算法中学习得出，a_i，t表示每个目标的特征向量在本次预测中对预测结果产生影响的程度，经过softmax运算后，得到一组向量α_t用于融合各个目标的权重，利用α_t生成t时刻模型关注的特征

将Attention模块中，对生成词汇影响最大的目标特征即最大的α_i，t对应的目标类别lab作为候选名词将其进行编码，编码结果为y1，计算过程如式13，14，15所示；

lab＝l_{i_max} (14)

y1＝Word Embedding(lab) (15)

其中i_max为α_t向量中最大值的角标，l_{i_max}为各目标特征图的类别标签中角标值为i_max的标签，y1表示l_{i_max}标签的编码；

语言LSTM的输入包含前面Attention模块的输出和Attention LSTM的隐含层计算过程如式16，17，18所示；将语言模块的输出结果输入softmax层，得到一个对应的词汇编码y2；

使用模型中的第二个Attention模块，利用对y1与y2进行融合，得到最终输出词汇y；

1)损失函数

在训练过程中，采用的损失函数形式如式19所示；

其中T表示训练集或测试集内模型输入的图片对应的描述语句的长度，表示描述语句中第1个单词到第t-1个单词的单词序列；表示训练集中的第t个单词，是解码模块的在前t-1个单词为的情况下，输出的第t个单词为的概率；通过最小化公式中的L_XE(θ)函数来训练模型。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京工业大学，未经北京工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911098782.6/1.html，转载请声明来源钻瓜专利网。

上一篇：多虚拟对象交互的方法、装置、服务器及存储介质
下一篇：一种电解法次氯酸钠发生器系统及运行方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于长短期记忆模型与目标检测算法的图像描述方法在审

专利文献下载