[发明专利]开放域视觉语言问答方法、装置、电子设备及存储介质在审
申请号: | 202310417662.8 | 申请日: | 2023-04-18 |
公开(公告)号: | CN116561272A | 公开(公告)日: | 2023-08-08 |
发明(设计)人: | 冼广铭;张文聪;柳寒 | 申请(专利权)人: | 华南师范大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/36;G06F16/58 |
代理公司: | 广州骏思知识产权代理有限公司 44425 | 代理人: | 吴静芝 |
地址: | 528225 广东省佛山市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 开放 视觉 语言 问答 方法 装置 电子设备 存储 介质 | ||
本发明涉及一种开放域视觉语言问答方法、装置、电子设备及存储介质。本发明所述的开放域视觉语言问答方法包括:对图像进行编码,将所述图像映射为一组视觉向量;对问题进行嵌入标记,得到词嵌入序列;将所述视觉向量和所述词嵌入序列进行拼接,并使用注意力机制提取所述视觉向量和所述词嵌入序列的隐含关系;使用所述视觉向量、所述词嵌入序列和所述隐含关系,构建知识三元组;将所述知识三元组与知识图谱中积累的知识进行实体匹配,得到匹配度最高的三元组,以该三元组的尾部实体作为最终答案输出。本发明所述的开放域视觉语言问答方法,提供了一种知识三元组抽取和积累的方法,用以提升模型的泛化能力,解决遗忘问题。
技术领域
本发明涉及视觉语言问答技术领域,特别是涉及一种开放域视觉语言问答方法、装置、电子设备及存储介质。
背景技术
开放域问答系统(Question Answering System,QA)、是以大规模开放域对话语料库作为训练语料,利用深度学习算法学习问答模式的问答模型。通过对话交互的方式客观的返回用户想要获得的信息,是信息检索的高级形式。大规模开放域对话语料库中涵盖的对话信息极为丰富,深度学习算法能够很好的学习开放域语料库中的开放对话知识提高回复用户提问的准确性,其应用在生产生活中十分广泛。开放域视觉问答的一个缺陷是从纯文本模态的知识库获取相关知识,这些知识库仅含有一阶谓词或词语描述所表达的事实,而缺乏用于一阶谓词或语言描述所表达的事实,而缺乏用于视觉理解的复杂但不可或缺的多模态知识。语料库也没有根据场景、目的、个性化等特征信息做区分,导致问答系统有回复多样性、话题控制、引入外部知识、个性化回复的多种不足,这就要求对话系统具有基础的感认能力,而且具有更进一步多模态推理能力。
开放域视觉语言问答(Vision-Language Question and Answering,VQA)是视觉语言交叉领域的重要研究任务之一,是实现面向用户的交互式视觉系统的重要途经。通过计算机视觉(Computer Vision,CV)方法检测图像中蕴含的包括物品、地点等在内显性信息和包括场景、表情等在内的隐含信息,针对用户提出的问题应用自然语言处理(NaturalLanguage Processing)有针对的给出一段自然语言作为答案。通常开放域视觉问答给出的问题不会包含在语料库中,要求视觉语言问答模型根据输入的问题和图像进行推理,根据两者之间的联系,泛化地回答问题。尽管视觉问答装置经过大规模开放域对话语料库作为训练语料的预训练后,但是在开放域视觉语言问答的推理能力极差,增强推理能力的方法往往是扩大预训练数据集。盲目的增大预训练数据集反而会导致模型过拟合,导致遗忘,无法泛化到其他任务或者数据集。应用知识图谱增强开放域视觉问答系统,使其在开放域数据集上仍然保持具有良好的推理能力,防止遗忘现象发生增强其泛化能力。
综上所述,开放域视觉问答研究有以下局限性:
在开放域视觉问答中,视觉语言模型能很好的检测图像中的目标和目标文本中的实体,但是不能很好的建模两种模态之间的关系,而且建模的知识无法长久记忆并进行积累。
在开放域视觉问答中,问题往往是训练集之外的,要求模型具有一定的泛化性,当增大数据集使其泛化性增强时,反而造成模型遗忘的现象。
发明内容
基于此,本发明的目的在于,提供一种开放域视觉语言问答方法、装置、电子设备及存储介质,提供了一种知识三元组抽取和积累的方法,用以提升模型的泛化能力,解决遗忘问题。
第一方面,本发明提供一种开放域视觉语言问答方法,包括以下步骤:
对图像进行编码,将所述图像映射为一组视觉向量;
对问题进行嵌入标记,得到词嵌入序列;
将所述视觉向量和所述词嵌入序列进行拼接,并使用注意力机制提取所述视觉向量和所述词嵌入序列的隐含关系;
使用所述视觉向量、所述词嵌入序列和所述隐含关系,构建知识三元组;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南师范大学,未经华南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310417662.8/2.html,转载请声明来源钻瓜专利网。