[发明专利]基于细粒度图像特征和外部知识相融合的视觉问答方法有效
申请号: | 202010883275.X | 申请日: | 2020-08-28 |
公开(公告)号: | CN112100346B | 公开(公告)日: | 2021-07-20 |
发明(设计)人: | 宋凌云;李建鳌;尚学群;俞梦真;彭杨柳;李伟;李战怀 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/36;G06K9/32;G06K9/34;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 金凤 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 细粒度 图像 特征 外部 知识 融合 视觉 问答 方法 | ||
本发明公开了一种基于细粒度图像特征和外部知识相融合的视觉问答方法,该方法由四个步骤构成:细粒度图像特征提取、文本处理与特征提取、基于外部知识库的问题知识检索和多模态特征融合及答案预测。细粒度图像特征提取用于提取图像的分区域视觉特征;文本处理与特征提取对视觉问题问句进行处理并得到问句的整体特征;基于外部知识库的问题知识检索通过引入Freebase知识图谱作为模型的外部知识库为视觉问题答案的预测补充必需的常识或特定的知识;多模态特征融合及答案预测中利用基于相似度特征融合方法进行多模态特征融合,并利用融合后的视觉问题特征对问题答案进行预测。本方法具有较好的性能,对视觉问题的答案具有较高的预测准确率。
技术领域
本发明属于智能信息处理领域,具体涉及一种视觉问答方法。
背景技术
视觉问答(Visual Question Answering,VQA)是一个结合计算机视觉和自然语言处理研究的交叉学科,其研究目标是让计算机能够对视觉问题的答案进行预测。具体过程为向计算机输入一张图像和一个与图像相关的开放式问题,视觉问答系统首先需要理解视觉问题文本的语义,然后结合与问题相关的图像视觉信息,从而进行答案预测。视觉问答任务要求计算机能够深入理解视觉问题中图像的内容、问题的语义,部分问题的解答还要求计算机掌握相关的常识或特定的知识,因此视觉问答研究中涉及到多项人工智能技术,包括细粒度识别、物体识别、行为识别和自然语言处理等,这就使得视觉问答比传统的计算机视觉研究在图像语义理解方面有着更高的要求和更大的挑战。
现有技术中已经有一些关于视觉问答的研究,但其所使用的是全局图像特征,无法得到和问题文本高相关度的细粒度视觉特征,对细粒度视觉问题的适用性差;大多方法仅关注视觉问题本身的内容,其应用场景受到了很大限制;同时,对细粒度图像视觉问题回答效果不佳,无法在视觉问题的基础上进行一定的推理。
发明内容
为了克服现有技术的不足,本发明提供了一种基于细粒度图像特征和外部知识相融合的视觉问答方法,该方法由四个步骤构成:细粒度图像特征提取、文本处理与特征提取、基于外部知识库的问题知识检索和多模态特征融合及答案预测。细粒度图像特征提取用于提取图像的分区域视觉特征;文本处理与特征提取对视觉问题问句进行处理并得到问句的整体特征;基于外部知识库的问题知识检索通过引入Freebase知识图谱作为模型的外部知识库为视觉问题答案的预测补充必需的常识或特定的知识;多模态特征融合及答案预测中利用基于相似度特征融合方法进行多模态特征融合,并利用融合后的视觉问题特征对问题答案进行预测。本方法具有较好的性能,在视觉问答评测指标“准确率”上,对视觉问题的答案具有较高的预测准确率。
本发明解决其技术问题所采用的技术方案包括以下步骤:
步骤1:细粒度图像特征提取;
步骤1-1:以原始图像作为输入,采用无监督图像分割算法对图像进行区域分割,每个分割区域采用不同的RGB颜色值进行标记;再将图像尺寸变为d1×d1×3;
步骤1-2:选取已预训练的VGG-16网络,将VGG-16网络的全连接层和Softmax层去除后作为图像特征提取器;把原始图像输入图像特征提取器,将图像特征提取器最后一个卷积层的输出作为原始图像的特征图,输出的特征图尺寸为d2×d2×512;
步骤1-3:采用ROI投影法将步骤1-1中原始图像的分割区域映射到特征图,按映射结果对特征图进行区域分割,并建立原始图像分割区域和特征图分割区域一一对应关系;再对特征图经过最大池化操作,得到特征图中各分割区域的图像特征向量,每个分割区域的图像特征向量为512维,每个分割区域的图像特征向量的值为该分割区域内每个维度的特征图最大值;
步骤2:文本处理与特征提取;
步骤2-1:使用NLTK工具包对视觉问题问句进行分词,分词的结果被转换为one-hot词向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010883275.X/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序