[发明专利]基于知识感知的模块化视觉推理方法及装置在审
申请号: | 201910665101.3 | 申请日: | 2019-07-23 |
公开(公告)号: | CN110414684A | 公开(公告)日: | 2019-11-05 |
发明(设计)人: | 朱文武;李国豪;王鑫 | 申请(专利权)人: | 清华大学 |
主分类号: | G06N5/04 | 分类号: | G06N5/04;G06F16/33;G06F16/58 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 王艳斌 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 神经网络模块 感知 推理 神经网络模型 树状结构 图片特征 文本 视觉 模块化 提问 模块化结构 图片 动态解析 动态组装 视觉特征 动态的 实例化 可用 答案 输出 | ||
本发明公开了一种基于知识感知的模块化视觉推理方法及装置,其中,该方法包括:获取图片,并获取图片对应的提问文本;对提问文本进行动态解析生成多个神经网络模块;将多个神经网络模块变换为树状结构神经网络模块,并对树状结构神经网络模块进行实例化处理生成知识感知神经网络模型;对图片进行视觉特征处理得到图片特征,将图片特征输入知识感知神经网络模型,并输出提问文本对应的答案。该方法针对特定的问题来进行动态组装,形成自下而上的树状模块化结构,可用于在真实图片上进行动态的视觉推理。
技术领域
本发明涉及视觉推理技术领域,特别涉及一种基于知识感知的模块化视觉推理方法及装置。
背景技术
视觉问答系统可以使得人机交互更加自然,或者为视力受损者提供帮助;可解释的模块化视觉问答系统使得图像理解更加深入,更接近人类对视觉信息的认知方式和推理过程,也便于进行系统查错。
现有的视觉推理方法,依据推理能力划分,目前主要有以下三种方法:
(1)基于神经网络和联合嵌入的整体模型。该模型整体表达能力有限,很难学习到复杂的推理过程。
(2)基于推理单元循环迭代的模型。这种模型具备了多步推理的能力,但是其试图通过一个通用的推理单元学习到多样的推理能力,这依旧存在挑战。
(3)模块化神经网络。这种模型通过动态组合不同功能的神经网络模块,可以针对不同数据执行不同的推理过程,并且在此过程中提供了更大的透明度。
目前的模块化神经网络虽然设计了不同功能的神经网络模块,但是仅仅能应用到模拟数据集上。在真实图片上,现有的神经网络模块无法表达全面的推理能力,而且在训练过程中无法学习到期望的模块功能,无法实现模块功能上的解耦。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基于知识感知的模块化视觉推理方法,该方法针对特定的问题来进行动态组装,形成自下而上的树状模块化结构,可用于在真实图片上进行动态的视觉推理。
本发明的另一个目的在于提出一种基于知识感知的模块化视觉推理装置。
为达到上述目的,本发明一方面实施例提出了一种基于知识感知的模块化视觉推理方法,包括:
获取图片,并获取所述图片对应的提问文本;
对所述提问文本进行动态解析生成多个神经网络模块;
将所述多个神经网络模块变换为树状结构神经网络模块,并对所述树状结构神经网络模块进行实例化处理生成知识感知神经网络模型;
对所述图片进行视觉特征处理得到图片特征,将所述图片特征输入所述知识感知神经网络模型,并输出所述提问文本对应的答案。
本发明实施例的基于知识感知的模块化视觉推理方法,通过获取图片,并获取图片对应的提问文本;对提问文本进行分析生成多个文本特征参数,并根据提问文本对预设神经网络模型进行动态解析处理生成多个神经网络模块;根据多个文本特征参数和多个神经网络模块生成树状结构神经网络模块,并对树状结构神经网络模块进行实例化处理生成知识感知神经网络模型;对图片进行视觉特征处理得到图片特征,将图片特征输入知识感知神经网络模型,并输出提问文本对应的答案,可以针对特定的问题对神经网络模块来进行动态组装,形成自下而上的树状模块化结构,可用于在真实图片上进行动态的视觉推理。
另外,根据本发明上述实施例的基于知识感知的模块化视觉推理方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910665101.3/2.html,转载请声明来源钻瓜专利网。