[发明专利]一种基于双视觉注意力网络的视觉对话生成方法在审
申请号: | 201910881305.0 | 申请日: | 2019-09-18 |
公开(公告)号: | CN110647612A | 公开(公告)日: | 2020-01-03 |
发明(设计)人: | 郭丹;王辉;汪萌 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/332;G06F16/583 |
代理公司: | 34101 安徽省合肥新安专利代理有限责任公司 | 代理人: | 陆丽莉;何梅生 |
地址: | 230009 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视觉特征 视觉 注意力 视觉注意力 特征提取 智能体 对话 预处理 答案 解码 参数优化 答案生成 对话文本 对话信息 特征序列 网络模型 文本语义 问题信息 优化处理 语义融合 语义信息 多模态 细粒度 预测 构建 合理性 网络 图像 中文 | ||
1.一种基于双视觉注意力网络的视觉对话生成方法,其特征是按如下步骤进行:
步骤1、视觉对话中文本输入的预处理和单词表的构建:
步骤1.1、获取视觉对话数据集,所述视觉对话数据集中包含句子文本和图像;
对所述视觉对话数据集中所有的句子文本进行分词处理,得到分割后的单词;
步骤1.2、从分割后的单词中筛选出词频率大于阈值的所有单词,并构建单词索引表Voc;再对所述索引表Voc中的每一个单词进行one-hot编码,得到one-hot向量表O=[o1,o2,...,on,...,oN],其中on表示索引表Voc中的第n个单词所对应的one-hot编码向量,N为索引表Voc中的单词个数;
步骤1.3、随机初始化一个词嵌入矩阵We,其中dw代表词向量的维度;利用词嵌入矩阵We将one-hot向量表中的每个单词的编码向量映射到相应的词向量上,从而得到词向量表;
步骤2、对话图像的特征提取以及对话文本的特征提取;
步骤2.1、从视觉对话数据集中获取任意一个图像I及其对应的历史对话U=[u1,u2,...,ut,...,uT]、当前问题和真实答案标签AGT所组成的视觉对话信息D;其中T为历史对话U中的对话片段总数,ut表示对话中的第t段对话,L1表示当前问题Q的句子长度,wQ,i表示当前问题Q中的第i个单词在所述词向量表中所对应的词向量;
步骤2.2、使用卷积神经网络提取视觉对话信息D中图像I的特征,得到全局视觉特征其中表示全局视觉特征V(0)中的第m个区域特征,M表示全局视觉特征V(0)中的总的空间区域数,dg为全局视觉特征V(0)的通道维度;
步骤2.3、使用目标检测特征提取器提取视觉对话信息D中图像I的特征,得到局部视觉特征其中表示局部视觉特征R(0)中的第k个目标对象特征,K表示局部视觉特征R(0)中的检测的局部目标对象总数,dr为局部视觉特征R(0)的通道维度;
步骤2.4、利用全连接操作将全局视觉特征和局部视觉特征映射到同一维度的空间中,得到转换后的全局视觉特征V=[v1,v2,...,vm,...,vM],以及局部视觉特征R=[r1,r2,...,rk,...,rK],其中vm表示全局视觉特征V中的第m个区域特征,rk表示局部视觉特征R中的第k个目标对象特征,d为转换后的通道维度;
步骤2.5、使用长短期记忆网络LSTM对当前问题Q进行特征提取,得到隐状态特征序列并取长短期记忆网络LSTM的最后一个步长输出的隐状态特征作为当前问题Q的句子级问题特征向量q,其中hQ,i表示长短期记忆网络LSTM的第i个步长输出的隐状态特征;
步骤2.6、使用长短期记忆网络LSTM对历史对话U中的第t段对话进行特征提取,得到第t个隐状态序列长短期记忆网络取LSTM的最后一个步长输出的隐状态特征作为第t段对话ut的句子级特征ht,则总的历史对话特征为H=[h1,h2,...,ht,...,hT],其中wt,i表示第t段对话ut中第i个单词在所述词向量表中所对应的词向量,L2为第t段对话ut的句子长度,ht,i表示长短期记忆网络LSTM的第i个步长输出的隐状态特征;
步骤3、基于当前问题信息对历史对话信息进行注意力处理;
利用式(1)对所述总的历史对话特征H=[h1,h2,...,ht,...,hT]进行注意力处理,得到注意力关注的历史特征向量ha,
ha=αhHT (1)
式(1)中,表示对历史对话特征H的注意力分布权重,并有:
αh=softmax(PTzh) (2)
式(2)中,表示句子级问题特征向量q与历史对话特征H之间的相似度矩阵,表示相似度矩阵zh的待训练参数,并有:
zh=tanh(Wqq+WhH) (3)
式(3)中,表示句子级问题特征向量q对应的待训练参数,表示历史对话特征H对应的待训练参数;
步骤4、双视觉特征各自独立的注意力处理;
步骤4.1、利用式(4)对全局视觉特征V=[v1,v2,...,vm,...,vM]进行注意力处理,得到注意力关注的全局视觉特征向量V′,
V′=αV1VT (4)
式(4)中,表示对全局视觉特征V的注意力分布权重,并有:
式(5)中,表示句子级问题特征向量q、注意力关注的历史特征向量ha以及全局视觉特征V之间的相似度矩阵表示相似度矩阵zV1的待训练参数,并有:
zV1=tanh(Wq1q+Wh1ha+WV1V) (6)
式(6)中,表示句子级问题特征向量q对应的待训练参数,表示注意力关注的历史特征向量ha对应的待训练参数,表示全局视觉特征V对应的待训练参数;
步骤4.2、利用式(7)对局部视觉特征R=[r1,r2,...,rk,...,rK]进行注意力处理,得到注意力关注的局部视觉特征向量R′,
R′=αR1RT (7)
式(7)中,表示对局部视觉特征R的注意力分布权重,并有:
式(8)中,表示句子级问题特征向量q、注意力关注的历史特征向量ha以及局部视觉特征R之间的相似度矩阵,表示相似度矩阵zV1的待训练参数,并有:
zR1=tanh(W′q1q+W′h1ha+WR1R) (9)
式(9)中,表示句子级问题特征向量q对应的待训练参数,表示注意力关注的历史特征向量ha对应的待训练参数,表示局部视觉特征R对应的待训练参数;
步骤5、双视觉特征相互交叉的注意力处理;
步骤5.1、利用式(10)对全局视觉特征V=[v1,v2,...,vm,...,vM]进行双视觉交叉注意力处理,得到进一步注意力关注的全局视觉特征向量V″,
V″=αV2VT (10)
式(10)中,表示对全局视觉特征V的进一步注意力分布权重,并有:
式(11)中,表示句子级问题特征向量q、注意力关注的历史特征向量ha、注意力关注的局部视觉特征向量R′以及全局视觉特征V之间的相似度矩阵,表示相似度矩阵zV2的待训练参数,并有:
zV2=tanh(Wq2q+Wh2ha+WR2R′+WV2V) (12)
式(12)中,表示句子级问题特征向量q对应的待训练参数,表示注意力关注的历史特征向量ha对应的待训练参数,表示注意力关注的局部视觉特征向量R′对应的待训练参数,表示全局视觉特征V对应的待训练参数;
步骤5.2、利用式(13)对局部视觉特征R=[r1,r2,...,rk,...,rK]进行双视觉交叉注意力处理,得到进一步注意力关注的局部视觉特征向量R″,
R″=αR2RT (13)
式(13)中,表示对局部视觉特征R的进一步注意力分布权重,并有:
式(14)中,表示句子级问题特征向量q、注意力关注的历史特征向量ha、注意力关注的全部视觉特征向量V′以及局部视觉特征R之间的相似度矩阵,表示相似度矩阵zR2的待训练参数,并有:
zR2=tanh(W′q2q+W′h2ha+W′V2V′+W′R2R) (15)
式(15)中,表示句子级问题特征向量q对应的待训练参数,表示注意力关注的历史特征向量ha对应的待训练参数,示注意力关注的全部视觉特征向量V′对应的待训练参数,表示局部视觉特征R对应的待训练参数;
步骤6、视觉特征的优化处理;
步骤6.1、利用式(16)对当前问题Q进行词级别注意力处理,得到注意力关注的词级问题特征向量qs,
qs=αqQT (16)
式(16)中,表示对当前问题Q的注意力分布权重,并有:
式(14)中,表示当前问题Q的自注意力语义矩阵,表示自注意力语义矩阵zQ的待训练参数,并有:
zQ=tanh(WQQ) (18)
式(18)中,表示词级别注意力处理时当前问题Q对应的待训练参数;
步骤6.2、利用式(19)和式(20)对进一步注意力关注的全局视觉特征向量V″和局部视觉特征向量R″分别进行优化处理,并得到最终的全局视觉特征向量和局部视觉特征向量
式(19)和式(20)中,表示视觉特征优化处理时词级问题特征向量qs对应的待训练参数,⊙表示点乘运算;
步骤7、多模态语义融合及解码生成答案特征序列;
步骤7.1、将所述注意力关注的词级问题特征向量qs,注意力关注的历史特征向量ha,优化后的全局视觉特征向量和局部视觉特征向量进行拼接后得到多模态特征向量eM,其中dM=3d+dw代表多模态特征向量的维度;再利用全连接操作对所述多模态特征向量eM进行映射,得到融合语义特征向量e,
步骤7.2、将所述融合语义特征向量e输入到长短期记忆网络LSTM中,得到预测答案的隐状态特征序列其中hA,i为长短期记忆网络LSTM的第i个步长的输出,L3为真实答案标签AGT的句子长度;
步骤7.3、利用全连接操作将所述预测答案的隐状态特征序列映射到与所述one-hot向量表O同一维度的空间中,得到预测答案的单词向量集合其中yi表示预测答案中第i个单词的映射向量,且向量长度与单词个数相同;
步骤8、基于双视觉注意力网络的视觉对话生成网络模型的参数优化;
步骤8.1、根据所述单词one-hot向量表O对真实答案标签AGT中的单词构建向量集合其中表示真实答案标签AGT中第i个单词的映射向量,且向量长度与单词个数相同;
步骤8.2利用式(21)计算预测答案与真实答案AGT之间的损失代价E:
步骤8.3、利用随机梯度下降法将所述损失代价E进行优化求解,使损失代价E达到最小,从而得到最优参数的基于双视觉注意力网络的视觉对话网络模型;
步骤9、预测答案生成
对所述预测答案的单词向量集合使用贪心解码算法得到第i个单词的映射向量yi中最大值所对应的位置,并根据最大值所对应的位置在单词索引表Voc中查找相应位置的单词作为第i个单词的映射向量yi最终的预测单词,进而得到单词向量集合Y所对应的预测答案,并以所述当前问题Q和单词向量集合Y所对应的预测答案作为最终生成的视觉对话。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910881305.0/1.html,转载请声明来源钻瓜专利网。