[发明专利]一种基于匹配算法的视觉问答方法及系统在审
申请号: | 202011032304.8 | 申请日: | 2020-09-27 |
公开(公告)号: | CN112100358A | 公开(公告)日: | 2020-12-18 |
发明(设计)人: | 汪欣;展华益;王欣;孙锐 | 申请(专利权)人: | 四川长虹电器股份有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F40/295;G06K9/00 |
代理公司: | 四川省成都市天策商标专利事务所 51213 | 代理人: | 郭会 |
地址: | 621000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 匹配 算法 视觉 问答 方法 系统 | ||
本发明公开了一种基于匹配算法的视觉问答方法,包括:通过图像检测和识别的方法获得图像信息;根据所述图像信息生成结构化的场景图;通过自然语言处理的方法获得问句信息;利用所述问句信息生成结构化的文本图;将所述场景图和文本图利用匹配算法进行匹配得到问句的答案。本发明的视觉问答方法可以为多模态信息交互和视觉问答领域提供一种基于结构化数据匹配的技术补充,从而使视觉问答技术具有更广泛的应用范围和更良好的性能。
技术领域
本发明涉及图像信号处理、自然语言处理结合的多模态信息交互技术领域,特别涉及一种基于匹配算法的视觉问答方法及系统。
背景技术
多模态信息交互技术和视觉问答技术目前处于发展阶段,但应用前景广泛。现有的视觉问答方法,通常采用一个深度神经网络,将图像特征和问句特征融合成特征向量,再经由神经网络进行学习和拟合,然后输出答案。
但是,基于端到端神经网络的视觉问答需要大量视觉问答数据训练模型,灵活度低且可能存在学习偏置,对于训练数据中出现频次较低的答案相对不容易学习到,也不具备良好的推理能力,对于结构复杂的问题难以解析。
此外,基于图结构的方法,通常将问句信息编码,来引导图像信息生成图结构,并利用图神经网络的方法在该图上计算答案。这样的方法通常需要将文本信息和图像信息用嵌入向量的形式抽象表示,对于系统回答错误的情况难以回溯分析,因此难以有针对性地优化系统性能。另外,由文本信息和视觉信息两个不同模态的信息耦合生成的图,可能会不利于信息表达,从而影响系统性能。
现有的采用图匹配的视觉问答方法只适用自然语言的精确匹配方式,且需要固定的模板来将视觉信息和问句信息分别转化成图结构,只能处理预先设计好的问题类型,系统的扩展性十分有限。
发明内容
本发明的目的是克服上述背景技术中不足,提供一种基于匹配算法的视觉问答方法及系统,区别于端到端神经网络的方法,具有合理利用结构化数据表示的优势,可实现对图像信息和文本信息的提炼和分析,并分别表示成场景图和文本图的形式,再利用匹配算法计算出答案,提升问答的正确率,具备更优的推理能力和灵活性。
为了达到上述的技术效果,本发明采取以下技术方案:
一种基于匹配算法的视觉问答方法,包括:
通过图像检测和识别的方法获得图像信息;
根据所述图像信息生成结构化的场景图;
通过自然语言处理的方法获得问句信息;
利用所述问句信息生成结构化的文本图;
将所述场景图和文本图利用匹配算法进行匹配得到问句的答案。
进一步地,所述图像检测和识别的方法包括:物体检测、关系检测、属性检测、场景检测;所述自然语言处理的方法包括:实体抽取、关系抽取、依存关系解析,以得到问句中的实体、关系、语法结构,以及问句的查询焦点。
进一步地,生成结构化的场景图后还包括引入外部知识优化场景图,包括信息添加、删减或修改及利用匹配算法进行答案推断。
进一步地,所述根据所述图像信息生成结构化的场景图时包括采用显式的自然语言表示来构成场景图,或采用隐式的编码向量来构成场景图;
生成结构化的文本图时包括:将获得的信息采用显式的自然语言表示来构成文本图,或采用隐式的编码向量来构成文本图。
进一步地,所述匹配算法包括但不限于精确匹配算法和模糊匹配算法。
进一步地,所述通过图像检测和识别的方法获得图像信息具体包括:
S1.对图像进行检测,得到场景中各目标类别及其在图像中的边界坐标的信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011032304.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种图像分割方法和图像处理装置
- 下一篇:一种厨房垃圾处理器