[发明专利]一种基于一般依赖树的视觉问题推理模型及系统有效
申请号: | 201810623776.7 | 申请日: | 2018-06-15 |
公开(公告)号: | CN109086892B | 公开(公告)日: | 2022-02-18 |
发明(设计)人: | 林倞;李百林;王青;梁小丹 | 申请(专利权)人: | 中山大学 |
主分类号: | G06N5/04 | 分类号: | G06N5/04;G06N3/04;G06N3/08 |
代理公司: | 广州容大知识产权代理事务所(普通合伙) 44326 | 代理人: | 刘新年 |
地址: | 510220 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 一般 依赖 视觉 问题 推理 模型 系统 | ||
本发明公开了一种基于一般依赖树的视觉问题推理模型及系统,所述视觉问题推理模型包括:卷积层、双向长短期记忆网络层、递归神经网络以及多层感知器,所述卷积层、双向长短期记忆网络并列连接所述递归神经网络,最后再接入所述多层感知器,所述递归神经网络的拓扑结构由一般性语法分析树指导生成,本发明不仅可以提高视觉问题回答的准确率,还使该模型不同于以往类似于黑箱过程的神经网络,能够做到推理过程的可视化。
技术领域
本发明涉及自然语言处理、图像识别和深度学习等领域,特别是涉及一种基于一般依赖树的视觉问题推理模型及系统。
背景技术
视觉问答的任务是预测对于给定图像和文本问题的正确答案。这项任务的关键是能够在图像和语言领域进行联合推理。然而,大多数以前的方法更像黑盒子模型,即通过神经网络将视觉元素简单地映射到文本词语。这些方法的主要缺点是对结果缺乏解释能力,即为什么会产生这种答案。此外,已有实验表明,他们的准确性可以通过过度拟合数据偏差来实现,而且缺乏显式利用文本和图像的结构,导致在关系型数据集上不能获得令人满意的推理效果。
最近,一些开创性的工作利用了文本和图像中固有的结构,它将问题图像输入解析为语法分析树或某种布局,并将结点的局部特征级联,最终得出预测答案。例如,布局“更多(寻找(球),寻找(黄色))”表示模块应该首先找到图像上的球和黄色物体,然后组合这两个结果来回答球是否比有比黄色物体更多。但是,这些方法要么依赖手工设计的规则来理解问题,要么从零开始训练一个布局解析器,这样性能将大打折扣,这些限制严重阻碍了模型在理解多样和开放式问题并作出回答的潜力。
发明内容
为克服上述现有技术存在的不足,本发明之目的在于提供一种基于一般依赖树的视觉问题推理模型及系统,一种通用的和可解释的基于对抗组合模块网络的视觉问题推理系统,其遵循由修饰语关系和谓词关系组成的一般性依赖树,使得其能够在问题的任何依赖树上进行推理而不像先前的工作那样只能依赖于固定布局,不但提高了视觉问题回答的准确率,还使该模型不同于以往类似于黑箱过程的神经网络,能够做到推理过程的可视化。
为达上述及其它目的,本发明提出一种基于一般依赖树的视觉问题推理模型,包括:卷积层、双向长短期记忆网络层、递归神经网络以及多层感知器,所述卷积层、双向长短期记忆网络并列连接所述递归神经网络,最后再接入所述多层感知器,所述递归神经网络的拓扑结构由一般性语法分析树指导生成。
优选地,所述递归神经网络包括若干个子网络,每个子网络包括并列的对抗注意力模块和残差组合模块,其中所述对抗注意力模块由卷积层、全连接层并列连接双线性融合层,再连接卷积层构成,所述残差组合模块由两个全连接层并列连接双线性融合层,再连接全连接层,最后再与所述残差组合模块输入部分作残差连接构成。
优选地,所述视觉问题推理模型的学习采用反向传播算法。
优选地,所述视觉问题推理模型的学习过程如下:
通过大量的文本数据来预训练一般性语法分析树的拓扑结构;
通过大量的视觉问题推理数据,使用反向传播算法迭代训练所述卷积层、双向长短期记忆网络层、递归神经网络以及多层感知器的模型参数,直到收敛。
为达到上述目的,本发明还提供一种基于一般依赖树的视觉问题推理系统,包括:
视觉问题推理模型建立单元,用于建立基于一般依赖树的视觉问题推理模型,并利用反向传播算法进行视觉问题推理模型的学习;
视觉问题解析单元,用于利用现成的依赖关系解析器给出每个问题的特定依赖关系树,构造一个遵循依赖关系布局的推理路径;
全局推理单元,利用所述视觉问题推理模型在每个单词节点上交替执行对抗注意力模块与残差组合模块,以便进行全局推理。
优选地,所述视觉问题推理模型由树状结构布局的对抗注意力模块和残差组合模块列表堆叠而成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810623776.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于模糊逻辑推理的热斑故障诊断方法
- 下一篇:设备管理快速响应系统