[发明专利]开放域视觉语言问答方法、装置、电子设备及存储介质在审
申请号: | 202310417662.8 | 申请日: | 2023-04-18 |
公开(公告)号: | CN116561272A | 公开(公告)日: | 2023-08-08 |
发明(设计)人: | 冼广铭;张文聪;柳寒 | 申请(专利权)人: | 华南师范大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/36;G06F16/58 |
代理公司: | 广州骏思知识产权代理有限公司 44425 | 代理人: | 吴静芝 |
地址: | 528225 广东省佛山市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 开放 视觉 语言 问答 方法 装置 电子设备 存储 介质 | ||
1.一种开放域视觉语言问答方法,其特征在于,包括以下步骤:
对图像进行编码,将所述图像映射为一组视觉向量;
对问题进行嵌入标记,得到词嵌入序列;
将所述视觉向量和所述词嵌入序列进行拼接,并使用注意力机制提取所述视觉向量和所述词嵌入序列的隐含关系;
使用所述视觉向量、所述词嵌入序列和所述隐含关系,构建知识三元组;
将所述知识三元组与知识图谱中积累的知识进行实体匹配,得到匹配度最高的三元组,以该三元组的尾部实体作为最终答案输出。
2.根据权利要求1所述的一种开放域视觉语言问答方法,其特征在于:
所述知识三元组包括头部嵌入、尾部嵌入和关系嵌入;
所述头部嵌入为视觉向量,所述尾部嵌入为词嵌入序列,所述关系嵌入为所述视觉向量和所述词嵌入序列的隐含关系。
3.根据权利要求1所述的一种开放域视觉语言问答方法,其特征在于:
使用CLIP-VIT模型对图像进行编码。
4.根据权利要求1所述的一种开放域视觉语言问答方法,其特征在于:
使用RoBERTa模型对问题进行嵌入标记。
5.根据权利要求1所述的一种开放域视觉语言问答方法,其特征在于:
使用METER模型对所述视觉向量和所述词嵌入序列进行拼接和提取隐含关系处理。
6.根据权利要求5所述的一种开放域视觉语言问答方法,其特征在于:
使用Trans E损失函数训练所述METER模型。
7.根据权利要求1所述的一种开放域视觉语言问答方法,其特征在于:
对图像进行编码之前,还包括以下步骤:
将图像切分为等大patch,去除噪声图像;
对问题进行嵌入标记之前,还包括以下步骤:
对所问题进行去停留词处理,并按照Token执行切割。
8.一种开放域视觉语言问答装置,其特征在于,包括:
图像编码模块,用于对图像进行编码,将所述图像映射为一组视觉向量;
问题嵌入模块,用于对问题进行嵌入标记,得到词嵌入序列;
隐含关系提取模块,用于将所述视觉向量和所述词嵌入序列进行拼接,并使用注意力机制提取所述视觉向量和所述词嵌入序列的隐含关系;
知识三元组构建模块,用于使用所述视觉向量、所述词嵌入序列和所述隐含关系,构建知识三元组;
实体匹配模块,用于将所述知识三元组与知识图谱中积累的知识进行实体匹配,得到匹配度最高的三元组,以该三元组的尾部实体作为最终答案输出。
9.一种电子设备,其特征在于,包括:
至少一个存储器以及至少一个处理器;
所述存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1-7任一项所述的一种开放域视觉语言问答方法的步骤。
10.一种计算机可读存储介质,其特征在于:
所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的一种开放域视觉语言问答方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南师范大学,未经华南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310417662.8/1.html,转载请声明来源钻瓜专利网。