[发明专利]长时记忆增强的段落级别图像描述生成方法在审
申请号: | 202110609977.3 | 申请日: | 2021-06-01 |
公开(公告)号: | CN113591874A | 公开(公告)日: | 2021-11-02 |
发明(设计)人: | 丁贵广;陈辉 | 申请(专利权)人: | 清华大学 |
主分类号: | G06K9/46 | 分类号: | G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 王萌 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 记忆 增强 段落 级别 图像 描述 生成 方法 | ||
1.一种长时记忆增强的段落级别图像描述生成方法,其特征在于,包括以下步骤:
获取待描述的图像,并通过预训练的卷积神经网络对所述图像进行图像特征编码;
获取历史信息并通过第一循环神经网络对所述历史信息进行历史信息编码;
通过高容量记忆池存储每个时刻的历史信息,使用注意力机制从所述高容量记忆池中检索出与所述历史信息编码相关的历史记忆信息,并将检索到的所述历史记忆信息映射成一个记忆向量,以得到记忆增强的历史信息编码;
利用视觉注意力机制获取所述图像特征编码的图像上下文视觉特征,通过第二循环神经网络将所述图像上下文视觉特征和所述记忆增强的历史信息编码处理为预测向量,基于所述预测向量使用softmax层预测下一时刻的词的分布信息,完成自然语言描述生成。
2.如权利要求1所述的长时记忆增强的段落级别图像描述生成方法,其特征在于,在所述通过预训练的卷积神经网络对所述图像进行图像特征编码中,具体包括以下步骤:
通过对象检测模型自动识别所述图像中的显著性对象的语义信息和位置信息;
选取概率最高的36个对象区域,并使用区域池化的方式得到所述图像的全局特征;其中:
每个所述对象区域的局部区域特征表示为:
V={vi|vi∈R2048,i∈[1,36]}
其中,每个vi是一个2048维度的向量,并定义V局部区域特征,i为对象区域的个数;
所述使用区域池化的方式得到的所述图像的全局特征表示为:
其中,表示图像的全局特征,每个vi是一个2048维度的向量,i为对象区域的个数。
3.如权利要求1所述的长时记忆增强的段落级别图像描述生成方法,其特征在于,在所述获取历史信息并通过第一循环神经网络对所述历史信息进行历史信息编码中,包括,
所述第一循环神经网络将所述历史信息编码成两个隐藏向量,在当前时刻t,将上一时刻t-1的预测结果输入到所述第一循环神经网络中,所述第一循环神经网络根据门控网络来更新所述隐藏向量,并将当前时刻t的信息融合到历史信息中进行编码更新。
4.如权利要求3所述的长时记忆增强的段落级别图像描述生成方法,其特征在于,所述第一循环神经网络将所述历史信息编码成两个隐藏向量,在当前时刻t,将上一时刻t-1的预测结果输入到所述第一循环神经网络中,所述第一循环神经网络根据门控网络来更新所述隐藏向量,并将当前时刻t的信息融合到历史信息中进行编码更新,具体包括下述步骤:
将所述当前时刻t的所述历史信息生成单词序列,通过长短期记忆网络对所述单词序列进行编码;其中,在每个所述当前时刻t,首先使用一个词向量查找表将离散的所述单词序列转化一个单词特征,其中,
所述单词序列表示为:
Yt=[y1,y2,y3,…,yt]
其中,Yt为单词序列,yt为t时刻的单词;
所述单词特征表示为:
其中,Ey∈RN×d,N为整个数据集的词汇表的大小,d=512,yt为t时刻的单词,为yt的特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110609977.3/1.html,转载请声明来源钻瓜专利网。