[发明专利]一种多级联结循环神经网络的图像描述方法有效
申请号: | 201611155798.2 | 申请日: | 2016-12-14 |
公开(公告)号: | CN106599198B | 公开(公告)日: | 2021-04-06 |
发明(设计)人: | 胡海峰;吴捷;张俊轩;杨梁;王伟轩 | 申请(专利权)人: | 广东顺德中山大学卡内基梅隆大学国际联合研究院;中山大学 |
主分类号: | G06F16/58 | 分类号: | G06F16/58;G06F16/51;G06N3/08 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 528300 广东省佛山市顺德区大良*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 多级 联结 循环 神经网络 图像 描述 方法 | ||
1.一种多级联结循环神经网络的图像描述方法,其特征在于,包括以下步骤:
S1:从标注语句训练集中提取语义属性,构建属性词汇表;
S2:采用VGGNet模型作为CNN初始模型,采用单标签的ImageNet数据集进行CNN的参数预训练,然后再用多标签数据集MS COCO进行CNN参数的精细调整;
S3:输入待描述的图像,将其分割成不同的区域,输入到训练好的CNN中,将图像信息表达成高等级的语义信息,得到语义属性预测概率;
S4:将图像送入CNN网络中提取出描述不同区域的释义向量;
S5:根据上一层LSTM的隐变量的信息计算出每个释义对应的权重,再根据释义向量以及其对应权重计算出上下文向量;
S6:将语义属性预测概率及上下文向量输入到多级联结的循环神经网络中,输出的结果的组合即为该图像的自然语言描述。
2.根据权利要求1所述的多级联结循环神经网络的图像描述方法,其特征在于,所述步骤S2中,将CNN最后一个全连接层的输出输入到一个256分类的softmax分类器中,然后最小化损失函数即可,其中,N代表训练样本数;yij=[yi1,yi2,······,yic]是第i个图像对应的标签向量;pij=[pi1,pi2,······,pic]是对应的预测向量。
3.根据权利要求2所述的多级联结循环神经网络的图像描述方法,其特征在于,所述步骤S3中,采用多尺度组合分组MCG算法将一张输入图像分割成不同的局部区域图片,再将这些图片送入步骤S2训练好的CNN中,采用最大池化算法得到语义属性预测概率Vatt(I)。
4.根据权利要求3所述的多级联结循环神经网络的图像描述方法,其特征在于,所述步骤S4中,将图像送入VGGNet网络中,并从VGGNet的conv5_3层中取出描述不同区域的释义向量ai。
5.根据权利要求4所述的多级联结循环神经网络的图像描述方法,其特征在于,所述步骤S5中,根据上一层LSTM的隐变量的信息ht-1可以计算出每个释义对应的权重αi,再根据计算出上下文向量zt。
6.根据权利要求5所述的多级联结循环神经网络的图像描述方法,其特征在于,所述步骤S6中,使用x和p代表循环神经网络LSTM的输入与输出,t代表生成描述的自然语句的长度,则整个网络训练的具体过程如下:
S61:将语义属性预测概率送入第一个的LSTM中,此时第一个LSTM的输入为x-1=WeaVatt(I),其中Wea为属性权重矩阵,除此以外生成隐变量h-1送入下一个LSTM中;
S62:对于每一层LSTM,将xt和上一层隐变量信息ht-1送入LSTM的计算单元,其中:xt=WesZt,zt为上下文向量,Wes为上下文向量嵌入矩阵;
S63:LSTM单元进行计算,得到图像描述的输出结果:pt+1=LSTM(xt,ht-1),其中,函数LSTM(·)代表着长短时记忆单位中遗忘层,更新层,输出层的信息传递与计算。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东顺德中山大学卡内基梅隆大学国际联合研究院;中山大学,未经广东顺德中山大学卡内基梅隆大学国际联合研究院;中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611155798.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:数据采集交换引擎
- 下一篇:一种数据缓存与同步方法