[发明专利]一种图像语义描述的生成方法在审
申请号: | 201910477031.9 | 申请日: | 2019-06-03 |
公开(公告)号: | CN110188779A | 公开(公告)日: | 2019-08-30 |
发明(设计)人: | 赵小虎;有鹏;尹良飞;李祎宸;刘勇 | 申请(专利权)人: | 中国矿业大学 |
主分类号: | G06K9/46 | 分类号: | G06K9/46;G06N3/04 |
代理公司: | 北京天达知识产权代理事务所(普通合伙) 11386 | 代理人: | 庞许倩;龚颐雯 |
地址: | 221116 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 图像语义 语义描述模型 局部特征 全局特征 组合信息 注意力机制 聚焦图像 生成图像 提取图像 文本生成 细节信息 语义描述 语义信息 自适应 单词 句子 词句 聚焦 图像 挖掘 | ||
1.一种图像语义描述的生成方法,其特征在于,包括以下步骤:
S1,提取图像的全局特征和局部特征;
S2,将所述全局特征和所述局部特征进行组合得到组合信息;
S3,通过自适应注意力机制并根据所述组合信息聚焦图像特征及聚焦文本生成语义描述模型,利用所述语义描述模型生成图像语义描述的词句。
2.根据权利要求1所述的方法,其特征在于,所述步骤S1中提取图像的全局特征和局部特征,包括:
利用ImageNet训练VGG16的权重参数,通过VGG16的fc7层输出作为图像的全局特征向量,表示为G的4096维矢量;
对Faster R-CNN输出窗口选择置信度最高的n个局部特征,该局部特征向量表示为L={L1,L2,…,Ln},其中n<=10。
3.根据权利要求1所述的方法,其特征在于,所述步骤S2中将所述全局特征和所述局部特征进行组合得到组合信息包括:
图像的全局特征和局部特征输入编码器进行组合后,由编码器输出表示为I={G,L1,L2,…,Ln}的4096维向量集合,该向量集合由n+1个4096维向量构成,其中n<=10。
4.根据权利要求1所述的方法,其特征在于,所述步骤S3中聚焦图像特征及聚焦文本,包括根据所述组合信息得到图像的视觉信息vt和语义信息ct;
当前时刻输入图像的视觉信息表示为:
其中,G为全局特征向量,为当前时刻输出的对全局特征的训练权重,为t时刻输出的对局部特征的权重分配,且Li为局部特征向量元素,且1<=i<=n。
所述语义信息ct由图像的视觉信息vt与解码器中LSTM当前状态下的输出ht通过卷积神经网络表示为:
ct=g(vt;ht)
其中,g(·)表示注意力函数,表示输入图像经由编码器提取视觉信息的Global-local特征;ht为LSTM在当前状态下的隐藏状态输出,有
注意力函数将图像的视觉信息vt与ht进行融合得到空间注意力元素向量,公式如下:
αt=softmax(zt);
其中,kt为元素全部为1的向量,满足为当前状态下对于vt的关注度权重分配。
5.根据权利要求4所述的方法,其特征在于,训练权重随t的变化而变化,并动态调整不同位置的权重,根据t时刻输入的训练权重以及t时刻之前相关权重信息,动态调整的更新机制表示为:
其中,fi为I的子集向量,有fi∈{G,L1,L2,…,Ln};表示对应的视觉信息的特征向量fi在当前权重下相对于先前已经产生的描述词句的相关分数权重;ht-1为上一时刻LSTM的隐藏状态输出;w、Wh、Wf和b为训练的权重参数;为激活函数,采用的是双曲正切函数tanh(·)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国矿业大学,未经中国矿业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910477031.9/1.html,转载请声明来源钻瓜专利网。