[发明专利]基于图注意力神经网络与视觉关系的视觉问答方法及装置在审
申请号: | 202211168123.7 | 申请日: | 2022-09-23 |
公开(公告)号: | CN115588193A | 公开(公告)日: | 2023-01-10 |
发明(设计)人: | 金连超 | 申请(专利权)人: | 中银金融科技(苏州)有限公司 |
主分类号: | G06V20/70 | 分类号: | G06V20/70;G06F40/30;G06V10/80;G06F18/25;G06V10/764;G06V10/82;G06N3/048;G06N3/08 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 肖艳 |
地址: | 215133 江苏省苏州市高铁*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 注意力 神经网络 视觉 关系 问答 方法 装置 | ||
1.一种基于图注意力神经网络与视觉关系的视觉问答方法,其特征在于,包括:
将目标图像输入至视觉问答模型中的特征提取层,得到所述目标图像的图像特征,并将目标问题文本输入至所述特征提取层,得到所述目标问题文本的文本特征;
将所述图像特征和所述文本特征输入至所述视觉问答模型中的图注意力神经网络层,得到语义关系特征;
将所述语义关系特征输入至所述视觉问答模型中的视觉关系网络层,得到视觉关系特征;
将所述语义关系特征和所述视觉关系特征输入至所述视觉问答模型中的答案预测层,得到所述目标问题文本对应的答案;
其中,所述视觉问答模型是基于样本图像、样本问题文本以及所述样本问题文本对应的答案进行训练得到的。
2.根据权利要求1所述的基于图注意力神经网络与视觉关系的视觉问答方法,其特征在于,所述将所述图像特征和所述文本特征输入至所述视觉问答模型中的图注意力神经网络层,得到语义关系特征,包括:
将所述图像特征中的每一区域特征与所述文本特征进行拼接,得到所述每一区域特征对应的拼接结果;
将所述每一区域特征对应的拼接结果作为所述图注意力神经网络层的第一节点;
基于所述图注意力神经网络层,对多个所述第一节点之间的实体关系进行抽取,得到实体关系特征,并将所述实体关系特征与所述文本特征进行特征融合,得到所述语义关系特征。
3.根据权利要求1所述的基于图注意力神经网络与视觉关系的视觉问答方法,其特征在于,所述将所述语义关系特征输入至所述视觉问答模型中的视觉关系网络层,得到视觉关系特征,包括:
将所述语义关系特征输入至所述视觉关系网络层;
基于所述视觉关系网络层,抽取所述语义关系特征对应的多个候选关系特征,将每一候选关系特征与所述语义关系特征进行融合,得到所述每一候选关系特征对应的第一融合特征,根据所述每一候选关系特征对应的第一融合特征,获取所述视觉关系特征。
4.根据权利要求3所述的基于图注意力神经网络与视觉关系的视觉问答方法,其特征在于,所述根据所述每一候选关系特征对应的第一融合特征,获取所述视觉关系特征,包括:
将所述每一候选关系特征对应的第一融合特征与所述每一候选关系特征进行融合;
根据融合结果,获取所述视觉关系特征。
5.根据权利要求3所述的基于图注意力神经网络与视觉关系的视觉问答方法,其特征在于,所述根据所述每一候选关系特征对应的第一融合特征,获取所述视觉关系特征,包括:
将所述每一候选关系特征对应的第一融合特征作为所述视觉关系网络层中图注意力神经网络层的第二节点;
基于所述视觉关系网络层中的图注意力神经网络层,对多个所述第二节点之间的实体关系进行抽取,得到所述视觉关系特征。
6.根据权利要求1-5任一所述的基于图注意力神经网络与视觉关系的视觉问答方法,其特征在于,所述答案预测层包括注意力网络层和预测层;
所述将所述语义关系特征和所述视觉关系特征输入至所述视觉问答模型中的答案预测层,得到所述目标问题文本对应的答案,包括:
根据所述语义关系特征,获取第一输入信息,根据所述视觉关系特征,获取第二输入信息;
将所述第一输入信息和所述第二输入信息输入至所述注意力网络层,得到第二融合特征;所述注意力网络层用于基于所述第一输入信息和所述第二输入信息,对所述语义关系特征和所述视觉关系特征进行多模态融合,输出所述第二融合特征;
将所述第二融合特征输入至所述预测层,得到所述目标问题文本对应的答案。
7.根据权利要求6所述的基于图注意力神经网络与视觉关系的视觉问答方法,其特征在于,所述将所述第一输入信息和所述第二输入信息输入至所述注意力网络层,得到第二融合特征,包括:
将所述第一输入信息分别输入至所述注意力网络层的第一输入端口和第二输入端口,将所述第二输入信息输入至所述注意力网络层的第三输入端口,得到所述第二融合特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中银金融科技(苏州)有限公司,未经中银金融科技(苏州)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211168123.7/1.html,转载请声明来源钻瓜专利网。