[发明专利]一种多级联结循环神经网络的图像描述方法有效

申请号：	201611155798.2	申请日：	2016-12-14
公开（公告）号：	CN106599198B	公开（公告）日：	2021-04-06
发明（设计）人：	胡海峰;吴捷;张俊轩;杨梁;王伟轩	申请（专利权）人：	广东顺德中山大学卡内基梅隆大学国际联合研究院;中山大学
主分类号：	G06F16/58	分类号：	G06F16/58;G06F16/51;G06N3/08
代理公司：	广州粤高专利商标代理有限公司 44102	代理人：	林丽明
地址：	528300 广东省佛山市顺德区大良***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种多级联结循环神经网络图像描述方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种多级联结循环神经网络的图像描述方法，该方法从标注语句训练集中构建属性词汇表，采用VGGNet模型作为CNN模型，采用带标签的数据集进行CNN的参数训练与调整，输入待描述的图像，得到语义属性预测概率，将图像送入CNN网络中提取出描述释义向量并计算出每个释义对应的权重，再根据释义向量以及其对应权重计算出上下文向量，将语义属性预测概率及上下文向量输入到多级联结的循环神经网络中，输出的结果的组合即为该图像的自然语言描述。

技术领域

本发明涉及计算机视觉领域，更具体地，涉及一种多级联结循环神经网络的图像描述方法。

背景技术

目前科技与互联网的迅猛发展使得图像数据的数量大幅度地提升。同时，图像信息提取的需求也日益提高。而根据图像给出能够描述图像内容的自然语言语句已经计算机视觉领域一个研究热点。

由计算机视觉技术以及自然语言处理技术的发展，图像描述这个课题作为一个热点已经持续了几年，很多方法都被提出。例如：基于局部区域特征的方法，基于多模态递归神经网络的方法以及基于卷积神经网络(CNN)结合循环神经网络(RNN)的方法等。其中，基于CNN结合RNN的方法研究的成果最多，效果最好。然而，这些方法把图像输入CNN之后从CNN靠后的层中取出激活数据输入到RNN中，而忽略了图像的深层次的语义概念以及区域关注点信息。所以我们图像描述研究将针对基于图像高级语义及关注点机制的多级联结循环神经网络的图像描述方法以提取图像深层次的语义概念以及区域关注点信息。

基于CNN结合RNN的方法的主要思想是：首先将图像信息输入到卷积神经网络中，从卷积神经网络的靠后的层提取激活数据；接下来将这些数据输入到循环神经网络中，通过最小化损失函数来输出最有可能的图像描述。很多学者在这个基础上做出探索与改进。Mao等人提出了一种多重循环神经网络(m-RNN)来用于图像描述，网络通过一个由单词嵌入层，RNN网络输出层和CNN网络输出层组成的多模态层来提升输出准确度。Xu等人在语言模型部分用LSTM代替了传统的RNN，并且将图像的输入方式由每一个时间点输入改为了只在初始的时候输入一次，减小了噪音干扰，提升了输出效果。以上的方法都取得了不错的效果，但是现在的图像描述研究经常忽视了图像深层次的语义概念以及区域的关注点信息。而这些信息对于提高图像描述的输出准确率是有很大帮助的。

发明内容

本发明提供一种具有描述准确率高的多级联结循环神经网络的图像描述方法。

为了达到上述技术效果，本发明的技术方案如下：

一种多级联结循环神经网络的图像描述方法，包括以下步骤：

S1：从标注语句训练集中提取语义属性，构建属性词汇表；

S2：采用VGGNet模型作为CNN初始模型，采用单标签的ImageNet数据集进行CNN的参数预训练，然后再用多标签数据集MS COCO进行CNN参数的精细调整；

S3：输入待描述的图像，将其分割成不同的区域，输入到训练好的CNN中，将图像信息表达成高等级的语义信息，得到语义属性预测概率；

S4：将图像送入CNN网络中提取出描述不同区域的释义向量；

S5：根据前一步系统的隐变量的信息计算出每个释义对应的权重，再根据释义向量以及其对应权重计算出上下文向量；

S6：将语义属性预测概率及上下文向量输入到多级联结的循环神经网络中，输出的结果的组合即为该图像的自然语言描述。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载