[发明专利]一种基于长短期记忆模型与目标检测算法的图像描述方法在审
申请号: | 201911098782.6 | 申请日: | 2019-11-12 |
公开(公告)号: | CN110909736A | 公开(公告)日: | 2020-03-24 |
发明(设计)人: | 高逸凡;王勇 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06K9/32 | 分类号: | G06K9/32;G06N3/04;G06N3/08 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 短期 记忆 模型 目标 检测 算法 图像 描述 方法 | ||
1.一种基于长短期记忆模型与目标检测算法的图像描述方法,其特征在于:提取图像中各目标区域的特征和全图的特征,然后通过循环神经网络在目标检测算法生成的所有目标区域中选择一个或多个目标区域作为描述中下一个词汇生成的依据,然后将其输入到相关语言模型中,生成相应的词汇。
2.根据权利要求1所述的方法,构建的图像描述模型由以下几个部分构成:
1)基于深度学习图像目标检测的编码模块;
选择Faster-RCNN作为目标检测模型,在结构上,Faster-RCNN已经将特征提取(feature extraction),候选目标区域(proposal region)提取整合在了一个网络中;取目标检测模型Faster-RCNN中ROIPooling层输出的各目标候选区域特征图vi及其对应的类别标签li作为对图片中含有的数据的初步提取,在下文的解码模块中,将会对提取到的数据进行解码,生成描述语句;
2)基于LSTM的图像目标区域选择及目标词汇生成的解码模块;
模型解码模块中使用到了LSTM模型;共包括3种门Gate:遗忘门f、输入门i和输出门o;在t时刻,LSTM中的状态通过下列公式计算:
遗忘门:ft=σ(Wf[ht-1,xt]+bf) (1)
输入门:it=σ(Wi[ht-1,xt]+bi) (2)
细胞状态:
隐含层:ht=ot×tanh(Ct) (5)
输出层:ot=σ(Wo[ht-1,xt]+bo) (6)
其中ht,ht-1,Ct,Ct-1分别表示t时刻与t-1时刻的隐含层h与细胞状态C的值,ft,ft-1,it,it-1,ot,ot-1分别表示t时刻与t-1时刻的遗忘门f、输入门i和输出门o的值,Wf,Wi,Wo分别表示遗忘门f、输入门i和输出门o需要利用反向传播算法来的权重,Wf,Wi,Wo分别表示遗忘门f、输入门i和输出门o需要利用反向传播算法来更新的权重,bf,bi,bo为遗忘门f、输入门i和输出门o需要利用反向传播算法来更新的偏置,为更新细胞状态Ct的过程中产生的中间变量,其权重Wc与偏置bc同样需要使用反向传播算法来进行学习;在每一个时刻,三种门都由上一时刻的隐藏层ht-1和当前层xt通过非线性变换得到;根据遗忘门ft和输入门it,确定当前的细胞状态Ct,进而利用输出门ot来更新隐藏层ht;
解码模块由两个LSTM模块和两个Attention模块构成,两个LSTM模型分别为AttentionLSTM和Language LSTM;Attention LSTM的输入包含了目标特征的平均值上一次输出的单词的编码∏t及上次language LSTM的隐含层,其具体计算过程如式7,8所示;
其中k表示目标检测产生的所有目标候选区域特征图的数目,vi表示第i个目标的特征向量,表示目标特征的平均值,∏t为模型输出的前一时刻单词的编码,为LanguageLSTM在t-1时刻的隐藏层值,We为该阶段反向传播算法与要学习的权重;表示本模型用到的第一个Attention机制的输入;
经过Attention LSTM处理后,将Attention LSTM的隐含层作为输入第一个Attention模块中利用调整并融合每个目标特征vi生成第一小Attention模块的具体计算过程如式9,10,11,12所示;
αt=softmax(at) (11)
其中vi表示第i个目标的特征向量,表示Attention LSTM在t时刻的隐含层向量,Wva,Wha是用于调整vi与的权重矩阵,需要在反向传播算法中学习得出,ai,t表示每个目标的特征向量在本次预测中对预测结果产生影响的程度,经过softmax运算后,得到一组向量αt用于融合各个目标的权重,利用αt生成t时刻模型关注的特征
将Attention模块中,对生成词汇影响最大的目标特征即最大的αi,t对应的目标类别lab作为候选名词将其进行编码,编码结果为y1,计算过程如式13,14,15所示;
lab=li_max (14)
y1=Word Embedding(lab) (15)
其中i_max为αt向量中最大值的角标,li_max为各目标特征图的类别标签中角标值为i_max的标签,y1表示li_max标签的编码;
语言LSTM的输入包含前面Attention模块的输出和Attention LSTM的隐含层计算过程如式16,17,18所示;将语言模块的输出结果输入softmax层,得到一个对应的词汇编码y2;
使用模型中的第二个Attention模块,利用对y1与y2进行融合,得到最终输出词汇y;
1)损失函数
在训练过程中,采用的损失函数形式如式19所示;
其中T表示训练集或测试集内模型输入的图片对应的描述语句的长度,表示描述语句中第1个单词到第t-1个单词的单词序列;表示训练集中的第t个单词,是解码模块的在前t-1个单词为的情况下,输出的第t个单词为的概率;通过最小化公式中的LXE(θ)函数来训练模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911098782.6/1.html,转载请声明来源钻瓜专利网。