[发明专利]基于细粒度图像特征和外部知识相融合的视觉问答方法有效

专利信息
申请号: 202010883275.X 申请日: 2020-08-28
公开(公告)号: CN112100346B 公开(公告)日: 2021-07-20
发明(设计)人: 宋凌云;李建鳌;尚学群;俞梦真;彭杨柳;李伟;李战怀 申请(专利权)人: 西北工业大学
主分类号: G06F16/332 分类号: G06F16/332;G06F16/36;G06K9/32;G06K9/34;G06K9/62;G06N3/04;G06N3/08
代理公司: 西北工业大学专利中心 61204 代理人: 金凤
地址: 710072 *** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 细粒度 图像 特征 外部 知识 融合 视觉 问答 方法
【说明书】:

发明公开了一种基于细粒度图像特征和外部知识相融合的视觉问答方法,该方法由四个步骤构成:细粒度图像特征提取、文本处理与特征提取、基于外部知识库的问题知识检索和多模态特征融合及答案预测。细粒度图像特征提取用于提取图像的分区域视觉特征;文本处理与特征提取对视觉问题问句进行处理并得到问句的整体特征;基于外部知识库的问题知识检索通过引入Freebase知识图谱作为模型的外部知识库为视觉问题答案的预测补充必需的常识或特定的知识;多模态特征融合及答案预测中利用基于相似度特征融合方法进行多模态特征融合,并利用融合后的视觉问题特征对问题答案进行预测。本方法具有较好的性能,对视觉问题的答案具有较高的预测准确率。

技术领域

本发明属于智能信息处理领域,具体涉及一种视觉问答方法。

背景技术

视觉问答(Visual Question Answering,VQA)是一个结合计算机视觉和自然语言处理研究的交叉学科,其研究目标是让计算机能够对视觉问题的答案进行预测。具体过程为向计算机输入一张图像和一个与图像相关的开放式问题,视觉问答系统首先需要理解视觉问题文本的语义,然后结合与问题相关的图像视觉信息,从而进行答案预测。视觉问答任务要求计算机能够深入理解视觉问题中图像的内容、问题的语义,部分问题的解答还要求计算机掌握相关的常识或特定的知识,因此视觉问答研究中涉及到多项人工智能技术,包括细粒度识别、物体识别、行为识别和自然语言处理等,这就使得视觉问答比传统的计算机视觉研究在图像语义理解方面有着更高的要求和更大的挑战。

现有技术中已经有一些关于视觉问答的研究,但其所使用的是全局图像特征,无法得到和问题文本高相关度的细粒度视觉特征,对细粒度视觉问题的适用性差;大多方法仅关注视觉问题本身的内容,其应用场景受到了很大限制;同时,对细粒度图像视觉问题回答效果不佳,无法在视觉问题的基础上进行一定的推理。

发明内容

为了克服现有技术的不足,本发明提供了一种基于细粒度图像特征和外部知识相融合的视觉问答方法,该方法由四个步骤构成:细粒度图像特征提取、文本处理与特征提取、基于外部知识库的问题知识检索和多模态特征融合及答案预测。细粒度图像特征提取用于提取图像的分区域视觉特征;文本处理与特征提取对视觉问题问句进行处理并得到问句的整体特征;基于外部知识库的问题知识检索通过引入Freebase知识图谱作为模型的外部知识库为视觉问题答案的预测补充必需的常识或特定的知识;多模态特征融合及答案预测中利用基于相似度特征融合方法进行多模态特征融合,并利用融合后的视觉问题特征对问题答案进行预测。本方法具有较好的性能,在视觉问答评测指标“准确率”上,对视觉问题的答案具有较高的预测准确率。

本发明解决其技术问题所采用的技术方案包括以下步骤:

步骤1:细粒度图像特征提取;

步骤1-1:以原始图像作为输入,采用无监督图像分割算法对图像进行区域分割,每个分割区域采用不同的RGB颜色值进行标记;再将图像尺寸变为d1×d1×3;

步骤1-2:选取已预训练的VGG-16网络,将VGG-16网络的全连接层和Softmax层去除后作为图像特征提取器;把原始图像输入图像特征提取器,将图像特征提取器最后一个卷积层的输出作为原始图像的特征图,输出的特征图尺寸为d2×d2×512;

步骤1-3:采用ROI投影法将步骤1-1中原始图像的分割区域映射到特征图,按映射结果对特征图进行区域分割,并建立原始图像分割区域和特征图分割区域一一对应关系;再对特征图经过最大池化操作,得到特征图中各分割区域的图像特征向量,每个分割区域的图像特征向量为512维,每个分割区域的图像特征向量的值为该分割区域内每个维度的特征图最大值;

步骤2:文本处理与特征提取;

步骤2-1:使用NLTK工具包对视觉问题问句进行分词,分词的结果被转换为one-hot词向量;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010883275.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top