[发明专利]一种图像语义描述的生成方法在审

申请号：	201910477031.9	申请日：	2019-06-03
公开（公告）号：	CN110188779A	公开（公告）日：	2019-08-30
发明（设计）人：	赵小虎;有鹏;尹良飞;李祎宸;刘勇	申请（专利权）人：	中国矿业大学
主分类号：	G06K9/46	分类号：	G06K9/46;G06N3/04
代理公司：	北京天达知识产权代理事务所(普通合伙) 11386	代理人：	庞许倩;龚颐雯
地址：	221116 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	图像语义语义描述模型局部特征全局特征组合信息注意力机制聚焦图像生成图像提取图像文本生成细节信息语义描述语义信息自适应单词句子词句聚焦图像挖掘
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种图像语义描述的生成方法，属于图像语义描述技术领域。该方法包括以下步骤：S1，提取图像的全局特征和局部特征；S2，将所述全局特征和所述局部特征进行组合得到组合信息；S3，通过自适应注意力机制并根据所述组合信息聚焦图像特征及聚焦文本生成语义描述模型，利用所述语义描述模型生成图像语义描述的词句。本发明解决了目前图像语义描述技术存在的确定图像的关注重点，挖掘更高层次的语义信息，完善描述单词或句子的细节信息问题。

技术领域

本发明涉及图像语义描述技术领域，尤其涉及一种图像语义描述的生成方法。

背景技术

随着人工智能的迅猛发展以及深度学习技术的突破，基于深度学习的计算机视觉技术日趋成熟，研究人员尝试让机器理解视觉信息中更为复杂的语义信息，因此在计算机视觉与自然语言处理的交叉领域出现图像语义描述研究方向。图像语义描述技术最早由Farhadi等人提出，其目标是实现视觉空间的图像到语义空间的文本描述的转换，方法实现从图像到文本描述句子的映射，对视觉数据给出语义解释，实现从视觉空间到语义空间的映射。

但是由于图像底层的视觉特征与高层的语义概念存在很大差异，因此目前的图像场景语义描述方法仍然存在较多问题亟待解决，如无法确定图像的关注重点，以挖掘更高层次的语义信息，并完善描述句子的细节信息等问题。

发明内容

鉴于上述的分析，本发明旨在提供一种图像语义描述的生成方法，以解决目前图像语义描述技术存在的确定图像的关注重点，挖掘更高层次的语义信息，完善描述单词或句子的细节信息等问题。

本发明的目的主要是通过以下技术方案实现的：

本发明提供了一种图像语义描述的生成方法，包括以下步骤：

S1，提取图像的全局特征和局部特征；

S2，将所述全局特征和所述局部特征进行组合得到组合信息；

S3，通过自适应注意力机制并根据所述组合信息聚焦图像特征及聚焦文本生成语义描述模型，利用所述语义描述模型生成图像语义描述的词句。

进一步地，所述步骤S1中提取图像的全局特征和局部特征，包括：

利用ImageNet训练VGG16的权重参数，通过VGG16的fc7层输出作为图像的全局特征向量，表示为G的4096维矢量；

对Faster R-CNN输出窗口选择置信度最高的n个局部特征，该局部特征向量表示为L＝{L₁,L₂,…,L_n}，其中n<＝10。

进一步地，所述步骤S2中将所述全局特征和所述局部特征进行组合得到组合信息包括：