[发明专利]基于预训练及双层注意力的图像描述生成系统的构建方法在审
申请号: | 202110394217.5 | 申请日: | 2021-04-13 |
公开(公告)号: | CN113095405A | 公开(公告)日: | 2021-07-09 |
发明(设计)人: | 杜权 | 申请(专利权)人: | 沈阳雅译网络技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 沈阳新科知识产权代理事务所(特殊普通合伙) 21117 | 代理人: | 李晓光 |
地址: | 110004 辽宁省沈阳市*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 训练 双层 注意力 图像 描述 生成 系统 构建 方法 | ||
本发明公开一种基于预训练及双层注意力的图像描述生成系统的构建方法,步骤为:训练开源的图像多标签分类模型;对MS COCO图像描述数据集进行处理获得训练数据;使用图像多标签分类模型提取图像特征,得到整张图像的对象信息;将整张图像的对象信息与图像特征合并成编码器的结果;使用双层注意力机制处理编码器和解码器传来的信息;整个解码器最终输出图像的描述性语句;将所有模型封装,并部署在服务器端,完成整个系统的搭建。本发明将预训练的图像多标签分类模型纳入编码器中,并创新性地使用双层注意力机制处理编码器和前层解码器传递来的信息,提升了图像描述生成模型识别对象的准确率,相较于普通的图像描述生成模型获得了更好的性能。
技术领域
本发明涉及一种图像描述生成技术,具体为基于预训练及双层注意力的图像描述生成系统的构建方法。
背景技术
作为计算机视觉领域的终极任务之一,图像描述生成任务难度极大,其目标是跟据给定图像,生成一段文字来描述这幅图像。既要求描述语言的语法、语义准确,也需要其语言风格贴近实际生活。这是一个计算机视觉与自然语言处理相结合的任务。正因为图像描述具有像人一样能够将冗杂的图像信息压缩成精炼文字的能力,它在生活中也有着较为广泛的应用——帮助盲人“看见”世界、实现图像和视频到文字语音的转换等。
让机器分析图像,并用自然语言概述图像也是一件极为困难的事情。因为机器需要做的不仅仅是识别出图像中存在的物体,还需要识别出行为、方位等信息,并且需要将上述分析到的信息用符合语法规则和正常逻辑的语言表达出来。除此之外,优秀的描述还需要机器具有归类的能力,即把一些相似的物体划为一个整体。以往的图像描述生成系统往往只基于编码器-解码器构架,卷积神经网络作为编码器提取图像特征,循环神经网络作为解码器生成文字描述。但单靠图像描述生成模型识别不准确,因为如此简单的结构无法充分反映图像的表层信息如对象、方位等信息和隐层信息如动作、情绪等信息。
发明内容
针对现有技术中图像描述生成系统的识别准确率低等不足,本发明要解决的技术问题是提供一种可提升图像描述生成模型识别对象的准确率的基于预训练及双层注意力的图像描述生成系统的构建方法。
为解决上述技术问题,本发明采用的技术方案是:
本发明提供一种基于预训练及双层注意力的图像描述生成系统的构建方法,包括以下步骤:
1)训练开源的图像多标签分类模型;
2)使用MS COCO图像描述数据集并对数据进行处理;
3)使用图像多标签分类模型提取图像特征,得到整张图像的对象信息;
4)将整张图像的对象信息与图像特征合并成编码器的结果;
5)使用双层注意力机制处理编码器和解码器传来的信息;
6)整个解码器最终输出图像的描述性语句;
7)将所有模型封装,并部署在服务器端,完成整个系统的搭建。
步骤1)中,选取目前性能优异而且开源的图像多标签模型,使用MS COCO数据集对其进行训练。
步骤2)中,对获取到的MS COCO数据集进行清洗,包括去除数据集中分辨率较低的图像,去除图像描述中包含乱码的数据对,使用清洗后的数据训练图像描述生成模型。
步骤3)中,首先使用图像多标签分类模型提取整张图像的对象,然后将对象编码成词嵌入获取其连续性表示,具体步骤为:
301)使用图像多标签分类模型提取出图像中包含的对象;
302)如果图像多标签分类模型输出的对象的数量少于M个,则使用专用符号填充,使对象数量达到M个;303)如果图像多标签分类模型输出的对象的数量等于M个,则直接输出这M个对象;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳雅译网络技术有限公司,未经沈阳雅译网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110394217.5/2.html,转载请声明来源钻瓜专利网。