[发明专利]一种基于深度神经网络的智能视觉问答方法有效
申请号: | 201711494024.7 | 申请日: | 2017-12-31 |
公开(公告)号: | CN108170816B | 公开(公告)日: | 2020-12-08 |
发明(设计)人: | 纪荣嵘;周奕毅 | 申请(专利权)人: | 厦门大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06N3/04;G06N3/08 |
代理公司: | 厦门南强之路专利事务所(普通合伙) 35200 | 代理人: | 马应森 |
地址: | 361005 *** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于深度神经网络的智能视觉问答模型,涉及人工智能领域中的智能视觉问答。包括以下步骤:智能问答数据预处理;图像深度卷积特征抽取;文本问题深度特征抽取;智能视觉问题处理;基于枢纽通道的视觉智能问答。采用多任务学习框架进行全新的深度学习网络设计以解决智能视觉问答中训练数据缺乏与回答原因不可知等两大问题。设计了一新型的深度学习网络结构,该网络在进行智能视觉问答的同时能够对给出的答案进行原因说明,该网络结构包含一视觉描述模块,可根据问题内容针对性地对图像内容进行描述。该网络结构采用了枢纽结构设计,能将图像描述、文本问答等领域的数据引入到视觉智能问答任务中来。 | ||
搜索关键词: | 一种 基于 深度 神经网络 智能 视觉 问答 方法 | ||
步骤1、智能问答数据预处理;
步骤2、图像深度卷积特征抽取;
步骤3、文本问题深度特征抽取;
步骤4、智能视觉问题处理;
步骤5、基于枢纽通道的视觉智能问答。
2.如权利要求1所述一种基于深度神经网络的智能视觉问答模型,其特征在于在步骤1中,所述智能问答数据预处理的具体步骤为:(1)将所有图像尺度调整为448×448规格的分辨率;
(2)对所有训练数据中的文本内容进行去停用词处理,将所有英文词汇进行小写化;然后对文本内容进行分词,从中选取出现频率最高的8000个作为答案字典,并选取出现频率最高的20000个词汇作为图像描述词典。
3.如权利要求1所述一种基于深度神经网络的智能视觉问答模型,其特征在于在步骤2中,所述图像深度卷积特征抽取的具体步骤为:使用残差深度卷积网络对图像卷积特征进行处理,获取每张图像的特征地图,表示为FI∈R14×14×2048;此处14×14为图像的特征区域疏漏,2048表示为每个特征块的特征维度。
4.如权利要求1所述一种基于深度神经网络的智能视觉问答模型,其特征在于在步骤3中,所述文本问题深度特征抽取的具体步骤为:使用双向递归神经网络对问题特征进行抽取,起着递归网络中的处理单位为LSTM单位;用神经网络的每一方向传播所获得的最终隐层特征进行拼接获得最终问题内容的表征fq,该特征表示为:
α=Soft max(hf||hb).
其中,N表示为递归网络对每个问题处理的最大步数。
5.如权利要求1所述一种基于深度神经网络的智能视觉问答模型,其特征在于在步骤4中,所述智能视觉问题处理的具体步骤为:(1)视觉内容堵塞处理:由于一张图像的视觉表现内容丰富,为了让机器更加关注与问题相关的视觉内容从而提升问题回答的准确性,采取了视觉内容堵塞操作;在获取了图像的卷积特征地图FI和问题特征fq后,对两个模态的特征投影到相同的语义空间中,然后使用点乘的方式进行特征融合;随后使用Sigmoid激活函数对特征进行计算获取图像每个特征区域的权重值,并根据该权重值将卷积特征值进行更新获取内容过滤或的新特征Fa1:
Fa1=A⊙FI,
(2)图像内容注意力机制操作:为了获取有效的图像特征,采用视觉注意力机制,根据所给定的文本内容锁定图像中最相关的视觉新型;在给定新的视觉卷积特征地图Fa1和问题特征fq后,进行以步骤1相似的操作,获取图像精准视觉特征va2:
(3)图像内容推理操作:在获得了图像精准视觉特征后,再次根据问题内容采用注意力机制进行问题逻辑推理;用精准视觉特征va2和问题特征fq进行融合,获得进行的任务背景信息特征fj,用任务背景信息特征fj与视觉卷积特征Fa1进行相互结合获取新的特征块权重值,然后加权获取最终的视觉特征va3;该过程可用如下公式表示:
fj=σ(Ujfq⊙Vjva2).
(4)多模态特征结合并分类:在获取最终的视觉特征va3和问题特征fq后,用上述的语义映射方法将两种特征结合获得图像与问题的共同表征f,并将该特征输入一多层感知机,然后用Softmax方法对最后的特征进行答案预测;获得智能视觉通道下的预测答案。
6.如权利要求1所述一种基于深度神经网络的智能视觉问答模型,其特征在于在步骤5中,所述基于枢纽通道的视觉智能问答的具体步骤为:(1)基于问题内容的图像内容描述;
a)解析网络初始特征生产:在获取问题特征fq和内容过滤后的视觉卷积特征地图Fa1后,使用单向的LSTM网络对相关的视觉内容进行解析,并生成模型问题作答的文本解释;使用va3特征生成LSTM网络的初始隐层特征和初始背景特征
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711494024.7/,转载请声明来源钻瓜专利网。