[发明专利]一种多尺度视觉关注图像描述方法有效
申请号: | 201811446195.7 | 申请日: | 2018-11-29 |
公开(公告)号: | CN109670576B | 公开(公告)日: | 2022-09-13 |
发明(设计)人: | 胡海峰;何琛;张俊轩;刘峥 | 申请(专利权)人: | 中山大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 510260 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种多尺度视觉关注图像描述方法,通过对海量已标注文本描述的图像训练,得到一个由三部分:双层循环神经网络,多尺度视觉关注模型,多模态层组成的图像描述模型,实现对任意测试图像自动生成与其内容相关的描述语句。本发明能更加结合联系文本与视觉信息之间的联系,并将视觉关注机制应用到区域视觉特征中,得到更精确的视觉关注特征。同时通过双层循环神经网络的设计,解耦文本和视觉特征的处理,并将多尺度视觉关注模型加入多模态层,进而提高模型性能;本发明还利用共享矩阵方案,在大幅减少模型参数量的同时,也使模型性能得到更进一步提升。 | ||
搜索关键词: | 一种 尺度 视觉 关注 图像 描述 方法 | ||
【主权项】:
1.一种多尺度视觉关注图像描述方法,其特征在于,所述方法构造的多尺度视觉关注图像描述模型包括单词输入处理层,卷积神经网络层,循环层,多尺度视觉关注模型MVA,多模态层;所述单词输入处理层:包括第一嵌入层和第二嵌入层;将欲训练的单词使用独热码表示,将独热码依次经过第一嵌入层和第二嵌入层转换为词向量,所述词向量作为循环层的输入;所述卷积神经网络层用于提取输入图像的全局视觉特征和多尺度视觉特征;选用现有循环神经网络作为循环层,接受来自第二嵌入层的词向量作为输入。同时,通过双层循环神经网络的设计,解耦文本和视觉特征的处理,第一层循环神经网络用于处理文本模型,第二层循环神经网络用于处理视觉特征;所述多尺度视觉关注模型MVA将循环层中第二层的隐含层输出结果和卷积神经网络提取的多尺度视觉特征一起作为输入,并输出视觉关注特征;所述多模态层将所述第二嵌入层的输出特征、循环层的输出特征,全局视觉特征以及多尺度视觉关注模型MVA输出的视觉关注特征作为多模态层的输入,并输出词向量;所述方法具体处理过程包括如下步骤:S1:选用现有循环神经网络作为循环层,将欲训练的单词使用独热码表示,将独热码依次经过第一嵌入层和第二嵌入层转换为词向量,所述词向量作为循环层的输入;构造用于视觉特征提取的卷积神经网络具体步骤如下:S1.1:选择在图像数据集ImageNet上预训练好的卷积神经网络相关参数,用于提取全局视觉特征;S1.2:对图像描述的数据集的所有图片提取相关的全局视觉特征,并将每个全局视觉特征存储为向量vf;S1.3:在卷积神经网络模型中,通过CNN和RCNN模型,分别得到不同尺度的区域块视觉特征向量;S1.4:在循环层中,采用双层循环神经网络的设计解耦文本和视觉特征处理,第一层循环神经网络用于处理文本模型,第二层循环神经网络用于处理视觉特征;S2:构造多尺度视觉关注模型MVA,具体步骤如下:S2.1:取S1.3步骤中输出的区域块视觉特征作为多尺度视觉关注模型MVA的输入,输入的区域块视觉特征包含多种区域块的特征信息,将每张图像中由CNN提取的区域块视觉特征表示为:a={a1,…aN},由RCNN提取的区域块视觉特征表示为:b={b1,…bL},根据步骤S1双层循环神经网络中第二个LSTM隐含层的输出ht,以及区域块视觉特征a,b通过元素点乘运算fatt计算得到当前时刻与当前上下文语境相关的关注激活状态向量公式如下:S2.2:将S2.1中计算得到的关注激活状态向量eti作为输入,通过一个SoftMax层计算出当前时刻每个区域块的关注权重,关注权重公式如下:S2.3:将步骤S2.1和步骤S2.2得到的关注激活状态向量eti和关注权重ati进行加权求和得到视觉关注特征Ai,Bi,公式如下:S3:构造融合各类特征的多模态层,具体步骤如下:S3.1:将所述第二嵌入层的输出特征wt、循环层第二个LSTM的输出特征rt,全局视觉特征vf以及多尺度视觉关注模型MVA输出的视觉关注特征At,Bt作为多模态层的输入,将上述特征通过矩阵分别映射为同一维度的特征向量,多模态层输出m(t)表示为:m(t)=g(Vw·wt+Vr·rt+VI·vf+At+Bt)其中,Vw,Vr,VI分别表示为wt,rt,vf的映射矩阵,g(·)为调整过的双曲正切函数S4:多尺度视觉关注图像描述模型的训练和输出,具体步骤如下:S4.1:图像采集:采用多个带有文本标注的图像数据集用于多尺度视觉关注图像描述模型的训练和验证;S4.2:采用交叉熵损失作为多尺度视觉关注图像描述模型的目标函数,采用随机梯度下降算法计算损失梯度并使用反向传导算法对整个多尺度视觉关注图像描述模型网络里所有层中的参数进行微调。S4.3:将多模态层的输出输出向量经过矩阵转换为用于文本生成的独热码,独热码通过SoftMax计算出当前时刻多尺度视觉关注图像描述模型输出的单词即图像描述。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811446195.7/,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序