[发明专利]结合抽象语义表示的图像描述生成方法、系统及介质有效
申请号: | 202010581219.0 | 申请日: | 2020-06-23 |
公开(公告)号: | CN111612103B | 公开(公告)日: | 2023-07-11 |
发明(设计)人: | 唐晋韬;陈凤;李莎莎;庞焜元;王挺;王攀成;林登雯;何亮亮;徐钦杭 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06F18/214 | 分类号: | G06F18/214;G06F18/24;G06N3/0442;G06N3/092;G06F40/30;G06F40/126;G06F40/284 |
代理公司: | 湖南兆弘专利事务所(普通合伙) 43008 | 代理人: | 谭武艺 |
地址: | 410073 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 结合 抽象 语义 表示 图像 描述 生成 方法 系统 介质 | ||
1.一种结合抽象语义表示的图像描述生成方法,其特征在于,该方法采用预先完成训练的语言生成器来根据输入的图像生成对应的图像描述,且训练语言生成器的步骤包括:
1)针对训练数据集进行抽象语义表示标注,包括:1.1)输入带有标注语句的训练数据集,采用AMR解析器将训练数据集的标注语句为对应的抽象语义表示图,将每个抽象语义表示图表示为概念三元组的序列,表示抽象语义表示图中边,其中表示图G中的结点,E表示边,h、l和t分别表示图中每条边的首结点、边属性标签和尾结点;1.2)将训练数据集中所有的抽象语义表示图的三元组信息进行统计汇总,并将相同含义的结点进行合并;仅保留在所有结果出现次数大于预设阈值的结点,其他结点替换为指定的符号;
2)基于带有抽象语义表示的训练数据集训练抽象语义表示预测器;
3)将图像的候选区域视觉特征作为图像的视觉特征,图像的抽象语义表示特征作为语义特征,这两种特征同时作为基于注意力机制的语言生成器的输入、训练语言生成器;
4)使用训练好的语言生成器对测试集图像中的图像生成图像描述;
5)针对语言生成器进行效果评测;
所述抽象语义表示预测器为基于双重注意力机制的LSTM模型,步骤2)的详细步骤包括:
2.1)针对训练数据集中的每一张图像分别获取候选框,并提取每个候选框内局部图像的特征表示向量,将候选向量集作为该图像的视觉特征,得到视觉特征集V;
2.2)设计基于双重注意力机制的LSTM模型作为抽象语义表示预测器,所述基于双重注意力机制的LSTM模型包括用于预测结点的结点预测LSTM和用于预测关系属性标签的标签预测LSTM,在模型训练的每一时间步,结点预测LSTM的输入包括:上一时间步的输出,视觉特征集V、全局视觉特征和上一时间步生成的首结点;标签预测LSTM的输入则为:视觉特征集V、全局视觉特征和上一时间步生成的关系属性标签;将结点预测LSTM、标签预测LSTM为一起训练,且训练过程中采用联合交叉熵损失函数训练模型作为损失函数;设置训练过程中每一步的批次大小、输入映射维度和LSTM隐层大小,然后在训练数据集上完成对抽象语义表示预测器的训练;
2.3)使用训练好的抽象语义表示预测器对训练数据集提取抽象语义特征,并将图像的视觉特征及其对应的抽象语义表示特征进行对齐;
所述基于注意力机制的语言生成器包括依次相连的LSTM层、双重注意力层、语言生成LSTM层和softmax层;其中LSTM层为标准LSTM层,其输入包含四部分:LSTM层上一时间步的输出,语言生成LSTM层上一时间步的输出,全局视觉特征和上一时间步的生成的词;双重注意力层的第一重注意力针对视觉特征,LSTM层的输出和视觉特征V作为注意力层输入,第二重注意力使用三个注意力层分别针对抽象语义表示三元组序列的首结点/关系属性标签/尾结点序列进行计算;第一重注意力和第二重注意力计算注意力权重向量,,令权重向量为,归一化为,则注意力结果为;其中//分别为参数矩阵,为图像的第i个区域特征,为LSTM在t时间的输出,和为激活函数,为对应图像的视觉特征集;语言生成LSTM层为线性映射层,用于将连接之后的抽象语义表示的三个注意力结果映射到低维,其输入为:LSTM层当前时间步的输出,语言生成LSTM层上一时间步的输出,视觉注意力结果为和抽象语义表示注意力结果为;层用于将语言生成LSTM层的输出计算在词表上对应单词的概率,从而获取本时间步生成的单词;所述基于注意力机制的语言生成器的训练目标为最小化如下交叉熵损失:,其中分别表示个样例中第张图像视觉特征集、三元组序列信息和全局视觉特征,为模型参数,表示模型参数为并在条件下生成的概率,表示对数函数,表示对到求和。
2.根据权利要求1所述的结合抽象语义表示的图像描述生成方法,其特征在于,步骤3)中训练语言生成器时,首先设置训练过程中每一步的批次大小、输入映射维度和LSTM隐层大小,然后在训练数据集上完成对语言生成器的N1轮训练并保存语言生成器的模型;然后使用强化学习技术,损失函数的参数设置同样使用交叉熵损失函数的模型,继续训练语言生成器N2轮,每指定数量个批次保存语言生成器的模型,并对比当前模型和最好模型,如若当前模型在验证集效果更好,则更新最好模型为当前模型,从而最终完成语言生成器的训练,得到完成训练后的语言生成器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010581219.0/1.html,转载请声明来源钻瓜专利网。