[发明专利]基于多重注意力机制的动态记忆网络模型的视觉问答方法在审
申请号: | 202111083704.6 | 申请日: | 2021-09-14 |
公开(公告)号: | CN113886626A | 公开(公告)日: | 2022-01-04 |
发明(设计)人: | 缪亚林;童萌;程文芳;李臻 | 申请(专利权)人: | 西安理工大学 |
主分类号: | G06F16/583 | 分类号: | G06F16/583;G06F16/55;G06F16/532;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 徐瑶 |
地址: | 710048 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多重 注意力 机制 动态 记忆 网络 模型 视觉 问答 方法 | ||
1.基于多重注意力机制的动态记忆网络模型的视觉问答方法,其特征在于,包括以下步骤:
步骤1,对输入的图像与文本进行预处理,将图像与文本送入模型的输入模块负责对图像与文本特征进行提取,获得的是目标级别的特征;
步骤2,将步骤1输入的问题进行特征提取,根据其标点符号和空格,划分成独立的单词;接下来对这些单词使用预训练的词模型进行向量化表示,然后将其词向量表示输入循环神经网络,获取最后一个时间步的隐藏状态,得到问题特征;
步骤3,将步骤1输入的图片送入特征提取网络,得到由K个置信度最高的区域的特征组成的区域目标特征;
步骤4,对步骤2与步骤3得到的问题特征与图片特征使用多重注意机制迭代更新记忆,来产生回答问题所需的上下文向量;
步骤5,将步骤2中的问题特征与步骤4中产生的新图特征送入特征融合器联合推断出答案,其中答案从分类器给出概率最高的候选答案中选出。
2.根据权利要求1所述的基于多重注意力机制的动态记忆网络模型的视觉问答方法,其特征在于,步骤2的具体实施方式如下:
步骤2.1:首先,将输入的问题文本处理成模型能够接受的形式,那么输入的问题q表示为:
q=[q1,q2,...,qN]
其中:N为句子长度,qi为单词;
步骤2.2:其次,使用词向量模型将单词映射到同一个向量空间中,获得单词的词嵌入表示;而获得的单词的词向量h表示为:
h=[h1,h2,...,hN]
其中:hi为单词qi的词向量,h为经过训练之后的单词词向量;本文将处理好的词向量输入GRU网络,过程通过如下等式表示:
S=ReLU(GRU(hi)),
其中:S为输入文本句子特征,hi为输入文本的词向量,表示词向量是P维;
步骤2.3:最后,将词向量输入到循环神经网络中进行句子的特征提取,即问题特征。
3.根据权利要求2所述的基于多重注意力机制的动态记忆网络模型的视觉问答方法,其特征在于,步骤2中的问题特征是使用在语料库上预训练的Glove词向量模型获得每个单词的词向量表示。
4.根据权利要求3所述的基于多重注意力机制的动态记忆网络模型的视觉问答方法,其特征在于,步骤3具体按照以下步骤实施:
在接受了输入图片之后,由于不是图中所有的元素都与问题有关,为了更加准确的锁定目标,需要在图表示上应用注意力机制,分别找出解答问题关键的区域,这里使用了自上而下的注意力模型,采用具有高级语义的目标检测网络Faster R-CNN来提取图片特征;先是利用VGG和ResNet基础网络提取图像特征图,然后再根据区域建议网络和区域建议池化来得到固定尺寸的建议框特征图,再进行分类与回归,以获得精确的图像特征;最后得到置信度最大的前K个候选区域作为图像特征,其提取过程如下所示:
V=[v1,v2,...,vK],
其中:vK表示任意一个候选物体,V表示选取的置信度,表示每个候选物体是D维。
5.根据权利要求4所述的基于多重注意力机制的动态记忆网络模型的视觉问答方法,其特征在于,步骤4具体按照以下步骤实施:
步骤4.1:首先,将我们步骤2与步骤3所得到的问题特征与图片特征进行融合操作;
步骤4.2:其次,将对象特征图首先通过通道注意力获得和问题紧密相关的通道特征图,进一步在经过通道关注的特征图上使用空间注意力机制,获得和问题紧密相关的对象空间区域,基于此更新模型记忆,迭代此过程,获得回答问题的关键上下文信息;更新的模型记忆mt如下:
其中:[·;·]表示特征拼接操作,Wt表示参数更新矩阵,b表示偏置,表示新的图像特征,mt中t表示某一时刻,mt-1表示情景记忆;Q表示问题向量。
6.根据权利要求5所述的基于多重注意力机制的动态记忆网络模型的视觉问答方法,其特征在于,步骤5具体按照以下步骤实施:
首先将更新的模型记忆mt和问题向量Q以BLOCK多模态融合方式进行特征融合,得到融合特征J;在得到联合特征表示J后,使用两个全连接层来执行分类过程;随后使用DMN-MA模型中Sigmoid函数来执行答案预测,而该模型允许每个问题有多个正确答案,每个候选答案都有一个分数,范围在(0,1)之间;最后选取概率值最大的候选答案作为模型的最终答案且如下所示:
y=Sigmoid(WjJ+bj)
其中:Wj表示完全连接层的参数,bj表示偏置项,y表示最终答案,且训练过程中使用交叉熵作为损失函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111083704.6/1.html,转载请声明来源钻瓜专利网。