[发明专利]一种视觉问答预测方法、系统及存储介质在审
申请号: | 202110136865.0 | 申请日: | 2021-02-01 |
公开(公告)号: | CN112948609A | 公开(公告)日: | 2021-06-11 |
发明(设计)人: | 杨超;冯溯;蒋斌 | 申请(专利权)人: | 湖南大学 |
主分类号: | G06F16/532 | 分类号: | G06F16/532;G06K9/62;G06N3/04 |
代理公司: | 长沙正奇专利事务所有限责任公司 43113 | 代理人: | 马强;王娟 |
地址: | 410082 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 视觉 问答 预测 方法 系统 存储 介质 | ||
本发明公开了一种视觉问答预测方法、系统及存储介质,利用语言偏差构建一个联合损失函数去优化内容模块,上下文模块和最终的答案预测。这个联合损失函数包含内容损失,上下文损失和预测损失。内容损失用于优化内容模块的预测,以减少语言偏差带来的统计先验;上下文损失用于优化上下文模块的预测,以保留语言偏差带来的上下文先验;预测损失用于优化两个模块共同决定的预测答案分布。在这三个损失的联合作用下,模型能够在消除语言偏差和获取先验知识间取得一个平衡,具有更好的鲁棒性。
技术领域
本发明涉及人机交互技术领域,特别是一种视觉问答预测方法、系统及存储介质。
背景技术
随着互联网的发展,图像,文本,视频,音频等多模态数据以惊人的速度增长和累积,同时深度学习在计算机视觉,自然语言处理,语音识别等领域的成功,加速了传统人工智能向跨模态人工智能的转变。在这样的背景下,研究体现人类对多模态信息理解的问答系统具有重要意义。问答系统一直以来都是体现人工智能的一种通用方法,同时由于视觉信息占据了人脑数据处理的绝大部分,图像处理技术的发展也日趋成熟,基于图像和文本的视觉问答系统得到了很多的关注和研究。
视觉问答[1]的概念在2014年被提出,该任务通过对一幅图像提出问题并让机器来回答的方式,旨在检验机器对图像和问题的理解能力。具体地,将视觉问答任务定义为一种算法,该算法的输入是一幅图像和关于该图像的自然语言问题,输出是关于这个问题的自然语言答案。视觉问答任务非常具有挑战性,模型需要对图像和文本两种模态数据进行感知,识别和理解,并通过多模态交互,融合,推理得到答案。
最近研究表明,视觉问答模型的早期结果使人们高估了它们的性能,大多数现有模型对图片信息的利用不足,过度依赖于数据集中的语言偏差[2],使得模型无需利用图像就能正确回答问题。这种偏差一部分可以概括为“语言先验”[3],即模型利用问题与答案之间强烈的相关性,而忽视图片的相应内容,得到结果;另一部分可以概括为“视觉启动偏差”[4],即模型利用提问者根据图片内容进行提问的倾向性,仅根据问题的一部分,就得到结果。这严重限制了视觉问答的实际应用,因为现实世界中问题与答案间的统计分布与数据集中的分布是存在明显差异的。
现存的应对语言偏差的方法,大致可以分为两种:基于额外数据的方法和非基于额外数据的方法。基于额外数据的方法通常寄希望于构建更平衡的数据集,或者通过额外的注释和视觉监督去减少模型对语言偏差的依赖。但这样往往意味着需要额外的数据标注成本和训练代价。而非基于额外数据的方法往往通过特定的学习策略,减少语言偏差对模型的影响,但这样会使得模型的预测准确率有明显的下降。因为语言偏差对模型并不全是坏的影响,它也能帮助模型学习到一些上下文先验,以过滤掉不必要的答案候选。
发明内容
本发明所要解决的技术问题是,针对现有技术不足,提供一种视觉问答预测方法、系统及存储介质,避免模型仅根据片面的信息作出错误的预测。
为解决上述技术问题,本发明所采用的技术方案是:一种视觉问答预测方法,其特征在于,包括以下步骤:
S1、获取待提问的图像v,对图像进行特征提取,获得区域视觉特征fv(v);获取关于图像的自然语言问题,对所述自然语言问题q进行特征提取,获得问题特征fq(q);
S2、构建偏差模型,以所述自然语言问题q为偏差模型的输入,捕获语言偏差b;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110136865.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:多功能微分精密分条治具
- 下一篇:一种阻燃抗静电羊毛混纺面料