[发明专利]一种基于模态变换与文本归纳的图像描述生成方法有效
申请号: | 201910357364.8 | 申请日: | 2019-04-29 |
公开(公告)号: | CN110033008B | 公开(公告)日: | 2023-08-04 |
发明(设计)人: | 王瀚漓;王含章 | 申请(专利权)人: | 同济大学 |
主分类号: | G06V10/44 | 分类号: | G06V10/44;G06V10/774;G06V10/764;G06V10/82;G06N3/0464 |
代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 翁惠瑜 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 变换 文本 归纳 图像 描述 生成 方法 | ||
1.一种基于模态变换与文本归纳的图像描述生成方法,其特征在于,该方法包括以下步骤:
1)使用基于卷积神经网络的目标识别模型,将待描述图像划分为多个基于感兴趣区域的子块,提取子块的视觉特征;
2)使用第一长短时记忆模型对每个子块的视觉特征进行解码,通过将视觉信息转换为语义信息实现模态变换,生成各子块的文本描述;
3)使用第二长短时记忆模型对每个子块的文本描述进行再编码,提取各子块的语义特征;
4)使用双向层级长短时记忆模型融合各子块的语义特征,获得融合语义特征;
5)以所述融合语义特征作为第三长短时记忆模型的输入,生成待描述图像的文本描述;
所述步骤1)具体包括:
对图像进行大小缩放后输入卷积神经网络,提取视觉特征,计算各候选框置信度;
选择置信度最高前n个候选框作为感兴趣区域,形成子块,保存各子块的视觉特征及框位置信息;
所述步骤4)具体为:
按所述置信度由高到低对各子块进行排序;
将排序后各子块的语义特征依次作为双向层级长短时记忆模型各时间步的输入;
将最后一个时间步的前向输出与后向输出取均值作为各子块描述的融合语义特征;
所述第一长短时记忆模型的构建过程包括:
21)构建LSTM网络中的LSTM单元,其中:
ht=Ot⊙Tanh(ct)
其中,w和b为待训练参数,xt为当前时刻t的输入,ht-1为上一时刻t-1的隐层特征,i为输入门,f为遗忘门,o为输出门,c为记忆信息,σ和Tanh为激活函数;
22)获取数据集中描述参考句子的平均长度,并设置每层LSTM的时间步长度为16,隐层单元个数为512;
23)对单词表中的每个单词采用One-Hot方式进行编码,编码维度为单词表的长度,对于MSCOCO数据集,单词表长度为10020;
24)将描述参考句子中每个单词的One-Hot编码映射为一个嵌入式向量,并设置向量维度为512;
所述第二长短时记忆模型、双向层级长短时记忆模型和第三长短时记忆模型训练的步骤包括:
31)将MSCOCO数据集分为训练集和测试集;
32)使用交叉熵函数计算网络输出的每个单词与实际值之间的误差,并对每张图像中生成句子的每个单词与所有参考句子中单词的误差进行求和,具体表示为:
其中,为全体实数集合,O为最优参数集合,θ1为CNN网络参数集合,θ2为LSTM网络参数集合,X2为图像描述数据集中的输入图像,S为与X2对应的描述参考句子;
则系统目标为迭代优化(θ1,θ2),使得损失函数最小,其中系统损失函数表示为:
θ1为CNN网络参数集合,θ2为LSTM网络参数集合,X2为图像描述数据集中的输入图像,S为与X2对应的描述参考句子,f表示系统函数,为损失函数,N2为训练LSTM网络时,一次迭代中所使用的样本总数,Lk为第k个样本所对应的参考句子的长度,为第k张图像对应的描述参考句子的第t个单词,为生成的第k张图像的第t个单词,为输入的第k张图像,为第k张图像的参考句子的第t-1个单词;
33)使用链式法则逐层计算误差,并将其回传至整个模型的底层,采用梯度下降的算法,对参数进行更新;
其中α表示学习率;
34)将误差回传到CNN网络中,将每条句子中每个单词的误差进行求和,并逐层向前传递,完成优化。
2.根据权利要求1所述的基于模态变换与文本归纳的图像描述生成方法,其特征在于,所述文本描述中,每个单词采用One-Hot方式进行编码。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910357364.8/1.html,转载请声明来源钻瓜专利网。