[发明专利]基于异质图神经网络的文本视觉问答实现方法在审
申请号: | 202110370266.5 | 申请日: | 2021-04-07 |
公开(公告)号: | CN113094484A | 公开(公告)日: | 2021-07-09 |
发明(设计)人: | 高晨雨;朱琪;王鹏 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 吕湘连 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 异质图 神经网络 文本 视觉 问答 实现 方法 | ||
1.基于异质图神经网络的文本视觉问答实现方法,其特征在于,所述网络结构分为问题自我注意力模型、异质图注意力模型和全局-局部注意力应答模型三部分;
所述问题自我注意力模型基于BERT网络,获取文本问题的词向量特征,再通过六分类网络将问题特征分解为六个子组件,包括对象(object,o),对象-对象关系(object-object,oo),对象-文本关系(object-text,ot),文本(text,t),文本-文本关系(text-text,tt),文本-对象关系(text-object,to),并提取每个组件的分解的问题特征和自我注意力权重;
所述异质图注意力模型受图卷积网络的启发而设计,从输入图像中提取对象和文本相关信息并构建异质图,使用前一步得到的分解的问题特征采用注意力机制对异质图进行推理,得到结点和边的注意力权重和异质图问题特征;
所述全局-局部注意力应答模型使用transformer将分解的问题特征和异质图问题特征进行特征融合,在解码部分使用我们设计的二分支评价函数以迭代的方式生成同时兼顾OCR标记和一般文本标记的答案;
所述文本视觉问答实现方法包括以下主要步骤:
(1)问题自我注意力模型将一个具有T个单词的问题Q表示为词向量通过预训练的BERT网络得到输入单词对应的融合全文语义信息的词向量词向量通过六个单独的三层MLP网络,同时每个网络后紧接着softmax层,从而生成T个单词对应六种组件的注意力权重的集合结合词向量从而得到六个组件的分解的问题特征so,soo,sot,st,stt,sto;此外,将词向量直接通过全连接层和softmax层得到六个组件的自我注意权重wo,woo,wot,wt,wtt,wto;
(2)异质图注意力模型从图像中构建异质图其中是图像中N个对象结点的集合,是图像中M个文本结点的集合,ε={eij}是两个独立结点之间的关系的集合;之后采用注意力机制,使用不同的问题特征更新异质图的不同部分;根据分解的问题特征so,soo,sot,st,stt,sto得到六个组件的异质图注意力权重po,poo,pot,pt,ptt,pto和从单独对象中提取的特征从文本区域提取的特征
(3)将六个组件的自我注意权重wo,woo,wot,wt,wtt,wto和异质图注意力权重po,poo,pot,pt,ptt,pto结合得到对象的综合注意力权重和文本的综合注意力权重将对象和文本的综合注意力权重和从对象和文本中提取的特征和结合得到问题条件下对象和文本的异质图特征gobj和gtext;
(4)全局-局部注意力应答模型采用迭代的方式,每次将问题的分解的问题特征so,soo,sot,st,stt,sto,对象的异质图特征gobj,文本的异质图特征gtext和OCR特征输入到transformer层进行特征融合,融合后的特征输入到二元分支评价函数预测答案;答案空间是两部分的结合:包含5000个词的固定词典和从每个特定的图像中提取的动态OCR特征;选择最高的分数作为结果;在第一次迭代中,将融合特征作为输入,而在剩下迭代步骤中,使用前一个更新的输出作为输入进行迭代解码。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110370266.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种三维立体环境监测系统
- 下一篇:一种可调节长度的手臂康复机器人