[发明专利]一种基于深度神经网络的智能视觉问答方法有效
申请号: | 201711494024.7 | 申请日: | 2017-12-31 |
公开(公告)号: | CN108170816B | 公开(公告)日: | 2020-12-08 |
发明(设计)人: | 纪荣嵘;周奕毅 | 申请(专利权)人: | 厦门大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06N3/04;G06N3/08 |
代理公司: | 厦门南强之路专利事务所(普通合伙) 35200 | 代理人: | 马应森 |
地址: | 361005 *** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 神经网络 智能 视觉 问答 方法 | ||
一种基于深度神经网络的智能视觉问答模型,涉及人工智能领域中的智能视觉问答。包括以下步骤:智能问答数据预处理;图像深度卷积特征抽取;文本问题深度特征抽取;智能视觉问题处理;基于枢纽通道的视觉智能问答。采用多任务学习框架进行全新的深度学习网络设计以解决智能视觉问答中训练数据缺乏与回答原因不可知等两大问题。设计了一新型的深度学习网络结构,该网络在进行智能视觉问答的同时能够对给出的答案进行原因说明,该网络结构包含一视觉描述模块,可根据问题内容针对性地对图像内容进行描述。该网络结构采用了枢纽结构设计,能将图像描述、文本问答等领域的数据引入到视觉智能问答任务中来。
技术领域
本发明涉及人工智能领域中的智能视觉问答,尤其是涉及一种基于深度神经网络的智能视觉问答方法。
背景技术
视觉智能问答(Visual Question Answering)是今年来计算机科学届提出的一个机器终极智能任务。它的任务内容为基于一张给定图像的内容来回答由人类提出的自然语言问题。该任务在2010年由卡耐基梅隆大象的Bigham等人在《User Interface Softwareand Technology》进行首次提出[1]。2015年,佛吉尼亚理工学院的Stanislaw Antol等人在国际视觉会议ICCV发布了第一个针对视觉智能问答的大规模数据集,该数据集在亚马逊线上平台上由人工制作而成,数据内容包含了人类自然的问答习惯[2]。随着此数据集的发布,视觉智能问答从2015年起至今获得了学术界和工业届的巨大关注。
智能视觉问答代表这人工智能研究的一个新顶峰,是人类逼近人类智慧的一个重要体现。由于智能视觉问答任务内容的特殊性,该研究方向的发展往往基于计算机视觉和自然语言处理等两大领域的最新研究进展。与传统的文本问答或者多模态研究问题相比,视觉智能问答往往要求机器模型对视觉和文本内容进行了解,并能在内容获取的基础上做出逻辑推理以完成最终的人类问答。视觉智能问答同时具有巨大的工业应用场景,这些场景包括了:智能在线问答、无人驾驶、智能装备以及视觉残疾人障碍辅助。
2015年,Antol等人对智能视觉问答任务提出了一个基准模型,该模型通过深度卷积神经网络获取图片的高级视觉语义特征,并将该视觉语义特征作为递归神经网络的初始输入与文本特征进行传递与学习[2]。Ma等人采用卷积网络对图像与文本特征进行高级语义特征抽取,并用卷积方式对两个模态的特征进行融合,用最终的融合特征进行答案预测[3]。2016年,Yang等人[4]在国际视觉与模式识别会议上提出了基于多步骤推理的智能视觉问答模型,该模型采用了2015年Benjio[5]提出的视觉注意力机制对图像重要内容进行关注,并首次使用了多步关注的设计获得更好的任务特征。Lu等人对该问答注意力机制进行了拓展,提出了对图像内容和问题内容进行架构化关注的模型[6]。Fukui等人采用了紧凑双线性池化操作对视觉特征和问题特征进行融合,并通过扩大训练数据的方式极大的提高了视觉智能问答的性能。
虽然智能视觉问答在近两年中获得了极大的发展,但仍然存在有两大问题。首先是训练数据的不足:现有的智能视觉问答数据集的数据规模虽然达到了100万左右,但与传统的图像分类、目标检测等任务相比仍具有巨大的差距;此外,智能视觉问答的模型参数往往数以千万级,小量的训练数据往往未能充分发挥模型的性能。另一个问题是机器提供的问题答案不具备解释性:由于深度学习模型的黑盒设计,导致机器的做出回答的理由与原因往往难以给出;该情形会极大限制智能视觉问答在工业届中的推广与使用。
参考文献:
[1]Bigham J P,Jayant C,Ji H,et al.VizWiz:nearly real-time answers tovisual questions[C].user interface software and technology,2010:333-342.
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711494024.7/2.html,转载请声明来源钻瓜专利网。