[发明专利]基于预训练及双层注意力的图像描述生成系统的构建方法在审

申请号：	202110394217.5	申请日：	2021-04-13
公开（公告）号：	CN113095405A	公开（公告）日：	2021-07-09
发明（设计）人：	杜权	申请（专利权）人：	沈阳雅译网络技术有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/04;G06N3/08
代理公司：	沈阳新科知识产权代理事务所(特殊普通合伙) 21117	代理人：	李晓光
地址：	110004 辽宁省沈阳市***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于训练双层注意力图像描述生成系统构建方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开一种基于预训练及双层注意力的图像描述生成系统的构建方法，步骤为：训练开源的图像多标签分类模型；对MS COCO图像描述数据集进行处理获得训练数据；使用图像多标签分类模型提取图像特征，得到整张图像的对象信息；将整张图像的对象信息与图像特征合并成编码器的结果；使用双层注意力机制处理编码器和解码器传来的信息；整个解码器最终输出图像的描述性语句；将所有模型封装，并部署在服务器端，完成整个系统的搭建。本发明将预训练的图像多标签分类模型纳入编码器中，并创新性地使用双层注意力机制处理编码器和前层解码器传递来的信息，提升了图像描述生成模型识别对象的准确率，相较于普通的图像描述生成模型获得了更好的性能。

技术领域

本发明涉及一种图像描述生成技术，具体为基于预训练及双层注意力的图像描述生成系统的构建方法。

背景技术

作为计算机视觉领域的终极任务之一，图像描述生成任务难度极大，其目标是跟据给定图像，生成一段文字来描述这幅图像。既要求描述语言的语法、语义准确，也需要其语言风格贴近实际生活。这是一个计算机视觉与自然语言处理相结合的任务。正因为图像描述具有像人一样能够将冗杂的图像信息压缩成精炼文字的能力，它在生活中也有着较为广泛的应用——帮助盲人“看见”世界、实现图像和视频到文字语音的转换等。

让机器分析图像，并用自然语言概述图像也是一件极为困难的事情。因为机器需要做的不仅仅是识别出图像中存在的物体，还需要识别出行为、方位等信息，并且需要将上述分析到的信息用符合语法规则和正常逻辑的语言表达出来。除此之外，优秀的描述还需要机器具有归类的能力，即把一些相似的物体划为一个整体。以往的图像描述生成系统往往只基于编码器-解码器构架，卷积神经网络作为编码器提取图像特征，循环神经网络作为解码器生成文字描述。但单靠图像描述生成模型识别不准确，因为如此简单的结构无法充分反映图像的表层信息如对象、方位等信息和隐层信息如动作、情绪等信息。

发明内容

针对现有技术中图像描述生成系统的识别准确率低等不足，本发明要解决的技术问题是提供一种可提升图像描述生成模型识别对象的准确率的基于预训练及双层注意力的图像描述生成系统的构建方法。

为解决上述技术问题，本发明采用的技术方案是：

本发明提供一种基于预训练及双层注意力的图像描述生成系统的构建方法，包括以下步骤：

1)训练开源的图像多标签分类模型；

2)使用MS COCO图像描述数据集并对数据进行处理；

3)使用图像多标签分类模型提取图像特征，得到整张图像的对象信息；

4)将整张图像的对象信息与图像特征合并成编码器的结果；

5)使用双层注意力机制处理编码器和解码器传来的信息；

6)整个解码器最终输出图像的描述性语句；

7)将所有模型封装，并部署在服务器端，完成整个系统的搭建。

步骤1)中，选取目前性能优异而且开源的图像多标签模型，使用MS COCO数据集对其进行训练。