[发明专利]一种图像语义描述的生成方法在审
申请号: | 201910477031.9 | 申请日: | 2019-06-03 |
公开(公告)号: | CN110188779A | 公开(公告)日: | 2019-08-30 |
发明(设计)人: | 赵小虎;有鹏;尹良飞;李祎宸;刘勇 | 申请(专利权)人: | 中国矿业大学 |
主分类号: | G06K9/46 | 分类号: | G06K9/46;G06N3/04 |
代理公司: | 北京天达知识产权代理事务所(普通合伙) 11386 | 代理人: | 庞许倩;龚颐雯 |
地址: | 221116 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 图像语义 语义描述模型 局部特征 全局特征 组合信息 注意力机制 聚焦图像 生成图像 提取图像 文本生成 细节信息 语义描述 语义信息 自适应 单词 句子 词句 聚焦 图像 挖掘 | ||
本发明涉及一种图像语义描述的生成方法,属于图像语义描述技术领域。该方法包括以下步骤:S1,提取图像的全局特征和局部特征;S2,将所述全局特征和所述局部特征进行组合得到组合信息;S3,通过自适应注意力机制并根据所述组合信息聚焦图像特征及聚焦文本生成语义描述模型,利用所述语义描述模型生成图像语义描述的词句。本发明解决了目前图像语义描述技术存在的确定图像的关注重点,挖掘更高层次的语义信息,完善描述单词或句子的细节信息问题。
技术领域
本发明涉及图像语义描述技术领域,尤其涉及一种图像语义描述的生成方法。
背景技术
随着人工智能的迅猛发展以及深度学习技术的突破,基于深度学习的计算机视觉技术日趋成熟,研究人员尝试让机器理解视觉信息中更为复杂的语义信息,因此在计算机视觉与自然语言处理的交叉领域出现图像语义描述研究方向。图像语义描述技术最早由Farhadi等人提出,其目标是实现视觉空间的图像到语义空间的文本描述的转换,方法实现从图像到文本描述句子的映射,对视觉数据给出语义解释,实现从视觉空间到语义空间的映射。
但是由于图像底层的视觉特征与高层的语义概念存在很大差异,因此目前的图像场景语义描述方法仍然存在较多问题亟待解决,如无法确定图像的关注重点,以挖掘更高层次的语义信息,并完善描述句子的细节信息等问题。
发明内容
鉴于上述的分析,本发明旨在提供一种图像语义描述的生成方法,以解决目前图像语义描述技术存在的确定图像的关注重点,挖掘更高层次的语义信息,完善描述单词或句子的细节信息等问题。
本发明的目的主要是通过以下技术方案实现的:
本发明提供了一种图像语义描述的生成方法,包括以下步骤:
S1,提取图像的全局特征和局部特征;
S2,将所述全局特征和所述局部特征进行组合得到组合信息;
S3,通过自适应注意力机制并根据所述组合信息聚焦图像特征及聚焦文本生成语义描述模型,利用所述语义描述模型生成图像语义描述的词句。
进一步地,所述步骤S1中提取图像的全局特征和局部特征,包括:
利用ImageNet训练VGG16的权重参数,通过VGG16的fc7层输出作为图像的全局特征向量,表示为G的4096维矢量;
对Faster R-CNN输出窗口选择置信度最高的n个局部特征,该局部特征向量表示为L={L1,L2,…,Ln},其中n<=10。
进一步地,所述步骤S2中将所述全局特征和所述局部特征进行组合得到组合信息包括:
图像的全局特征和局部特征输入编码器进行组合后,由编码器输出表示为I={G,L1,L2,…,Ln}的4096维向量集合,该向量集合由n+1个4096维向量构成,其中n<=10。
进一步地,所述步骤S3中聚焦图像特征及聚焦文本,包括根据所述组合信息得到图像的视觉信息vt和语义信息ct;
当前时刻输入图像的视觉信息表示为:
其中,G为全局特征向量,为当前时刻输出的对全局特征的训练权重,为t时刻输出的对局部特征的权重分配,且Li为局部特征向量元素,且1<=i<=n。
所述语义信息ct由图像的视觉信息vt与解码器中LSTM当前状态下的输出ht通过卷积神经网络表示为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国矿业大学,未经中国矿业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910477031.9/2.html,转载请声明来源钻瓜专利网。