[发明专利]一种联合问答的图像自然语言描述方法在审
申请号: | 202211150406.9 | 申请日: | 2022-09-21 |
公开(公告)号: | CN115512191A | 公开(公告)日: | 2022-12-23 |
发明(设计)人: | 卫志华;刘官明;张恒 | 申请(专利权)人: | 同济大学 |
主分类号: | G06V10/778 | 分类号: | G06V10/778;G06N3/04;G06N3/08;G06T7/10;G06V10/774 |
代理公司: | 上海科律专利代理事务所(特殊普通合伙) 31290 | 代理人: | 范艳静 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 联合 问答 图像 自然语言 描述 方法 | ||
一种联合问答的图像自然语言描述方法,包括三个步骤:步骤一,首先使用图像分割模型对图像目标和图像背景的特征进行提取,得到像素级的不同类别的划分,获取目标和背景的分割特征图;步骤二,问题生成模块通过构建隐式的场景类型表征,产生包含关注目标信息的关系特征图,多粒度地生成若干个语义相关的引导问题;步骤三,联合问答模块引入对比学习的损失函数,对关系特征图和引导问题进行联合多模态嵌入表征,该模型通过训练,能生成问题相关的长文本回答,作为图像内容的精细化语义描述。
技术领域
本发明属于计算机视觉和自然语言处理领域。
背景技术
图像描述生成是一个跨文本和图像的多模态任务,目的是从图片中产生相应的自然语言描述。这个任务对于人类来说非常容易,但是对于计算机来说非常具有挑战性。随着深度学习的流行,越来越多的人尝试使用神经网络来解决机器的图像描述问题。
然而,由于自然语言描述存在多样性,使得其具备不一样的标准形式,使用特定数据集进行训练仅能得到符合该数据集分布的图像内容描述,限制了适用范围。同时,大多数的图像描述方法仅仅被动地生成单调的句子,并不会考虑到图像中场景与关注目标之间的联系,因此也很难同时对不同的、多尺度的目标进行描述,也容易对潜在的联系视而不见。这种机械的图像描述与人类对图像的语义认知存在较大的偏差,在与真实的人类进行交互时往往无法相互理解。
图像描述生成一般分为图像特征提取和文本生成两个子模块。图像特征提取常见的方法是使用图像识别神经网络模型来提取目标,但是这会导致图像信息的缺失和特征提取的偏差。同时,基于特征提取进行短句生成往往只关注特定的目标,不能由图像具有的丰富语义信息生成多粒度的描述,容易造成跨模态信息的大量损失。因此,机器的图像描述仍然与人类对图像的自然认知有着较大的差距。
发明内容
本发明针对背景技术的不足提供一种联合问答的图像自然语言描述方法,以视觉问答模型为基础生成图像内容描述,通过设计图像分割模块,问题生成模块和联合问答模块,借助关系特征图中不同尺度区域产生多个语义相关的提问,以问题-答案为对应关系,使用具有多粒度特征的引导问题产生图像场景的精细化描述,该方法能捕获图像中隐式事实发生可能性,生成更符合人类对图像语义认知的自然语言描述。
本发明采用如下技术方案:
一种联合问答的图像自然语言描述方法,其特征在于,以视觉问答模型为基础来生成图像内容的精细化描述。首先,图像分割模块获得图像目标和背景类别划分的分割特征图;其次,问题生成模块构建隐式的场景类型表征,以关注目标为中心产生多粒度的引导问题;最后,联合问答模块引入对比学习的损失函数,对关系特征图和引导问题进行联合多模态嵌入表征。本方法以视觉问答为基础,根据问题-答案的对应关系,生成图像内容的自然语言描述。
一种联合问答的图像自然语言描述方法,包括三个步骤:
步骤一,首先使用图像分割模型对图像目标和图像背景的特征进行提取,得到像素级的不同类别的划分,获取目标和背景的分割特征图;
步骤二,问题生成模块通过构建隐式的场景类型表征,产生包含关注目标信息的关系特征图,多粒度地生成若干个语义相关的引导问题;
步骤三,联合问答模块引入对比学习的损失函数,对关系特征图和引导问题进行联合多模态嵌入表征,该模型通过训练,能生成问题相关的长文本回答,作为图像内容的精细化语义描述。
针对步骤一,本发明提供了一种提取图像特征的优选方案。
针对步骤二,本发明公开了以LSTM模型为基础的问题生成模型,其特征在于,可以对分割特征图进行处理,通过构建隐式的场景类型表征,先产生包含关注目标信息的关系特征图,随后以关注目标为中心,多尺度地建立与图像关注目标之间、关注目标和背景之间的联系,生成的多粒度引导问题即作为后续联合问答中的一环。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211150406.9/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序