[发明专利]一种基于多域异质图引导的视觉问题常识推理模型及方法有效
申请号: | 201910772828.1 | 申请日: | 2019-08-21 |
公开(公告)号: | CN110598573B | 公开(公告)日: | 2022-11-25 |
发明(设计)人: | 王青;周静文;余伟江;梁小丹;林倞;肖侬 | 申请(专利权)人: | 中山大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/764;G06V10/82;G06V10/70;G06N3/04;G06N3/08;G06N5/04 |
代理公司: | 广州容大知识产权代理事务所(普通合伙) 44326 | 代理人: | 刘新年 |
地址: | 510275 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多域异质图 引导 视觉 问题 常识 推理 模型 方法 | ||
1.一种基于多域异质图引导的视觉问题常识推理模型,包括:
预训练模型初始化单元,利用预训练模型对基础骨架网络和分类器参数进行初始化;
视觉信息提取单元,用于利用检测器来提取输入图像的视觉信息的初始特征;
上下文投票单元,用于提取全局视觉信息中未被标注的视觉隐含信息结合到视觉信息的局部特征之中;
语言特征提取单元,用于利用自然语言预训练模型提取语言部分问题和答案的特征表示;
多域特征推理融合单元,用于构造多域异质图,将视觉信息特征和语言信息特征利用多域异质图进行多域特征推理融合获得最终特征表示;
分类单元,用于利用分类器对获得的特征处理后进行打分,选取得分高的选项为答案;
所述多域特征推理融合单元利用异质图处理多模态特征的能力将视觉特征表示迁移到语言模态并融合答案的特征表示,同时利用异质图将问题和答案的语义特征进行对齐,在分别进行引导机制之后再融合视觉-答案特征和问题-答案特征得到最终的多域推理融合特征;
所述多域特征推理融合单元进一步包括:
视觉-答案跨域异质图构建模块,用于对所述上下文投票单元和语言特征提取单元获得的视觉特征和答案特征构建视觉-答案跨域异质图,分别将视觉物体特征和答案中的单词特征作为异质图的两种类型节点构建异质图,通过异质图邻接矩阵学习图片中每个物体和答案每个单词之间存在的关联,同时将视觉特征迁移到语言特征,在此过程中,两个领域的特征融合生成提升版的视觉表征Yo;
第一引导机制模块,用于将视觉-答案跨域异质图构建模块获得的视觉表征Yo通过特定引导机制来生成最终的视觉信息特征Yv;
问题-答案同域对齐异质图构建模块,用于对所述语言特征提取单元104获得的问题特征和答案特征构建问题-答案同域对齐异质图,分别将问题中的单词特征和答案中的单词特征作为异质图的两种类型节点构建异质图,通过异质图邻接矩阵问题中每个物体和答案每个单词之间存在的关联,同时将问题中的单词特征和答案中的单词特征对齐,在此过程中,两种类型的语言特征对齐融合生成提升版的问题表征Yq;
第二引导机制模块,用于将所述问题-答案同域对齐异质图构建模块获得的问题表征Yq通过特定引导机制来生成最终的问题信息特征Yq;
异质图解析器模块,用于将所述第一引导机制模块和第二引导机制模块得到的视觉信息特征Yv和问题信息特征Yq通过解析器进行解析融合。
2.如权利要求1所述的一种基于多域异质图引导的视觉问题常识推理模型,其特征在于,所述视觉信息提取单元进一步包括:
图片获取模块,用于获取有标注信息的图片;
视觉特征提取模块,用于提取所述基础骨架网络的conv4特征层,将已知候选框和特征层输入所述检测器,提取图片中各个候选区域的视觉特征。
3.如权利要求1所述的一种基于多域异质图引导的视觉问题常识推理模型,其特征在于:所述上下文投票单元基于全局视角对上下文相关信息进行再提取并补充到局部语义信息当中。
4.如权利要求3所述的一种基于多域异质图引导的视觉问题常识推理模型,其特征在于:所述上下文投票单元进行逐像素点投票获得与其相关的像素点并累加相关像素点的特征,以此来强化局部视觉信息。
5.如权利要求4所述的一种基于多域异质图引导的视觉问题常识推理模型,其特征在于:所述上下文投票单元通过级联的三次投票选择机制融合上下文中相关位置上的信息对初始视觉特征的局部特征进行增强。
6.如权利要求1所述的一种基于多域异质图引导的视觉问题常识推理模型,其特征在于,所述语言特征提取单元进一步包括:
初始语言特征提取模块,用于使用自然语言预训练模型BERT初步提取初始语言特征;
编码器模块,用于利用双向长短期记忆网络将初始语言特征编码为与视觉特征最低维维度数相等的特征矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910772828.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于图像识别的手部关键尺寸测量系统
- 下一篇:智能人脸监控识别方法及系统