[发明专利]基于深度学习模型的视觉问答方法及装置、介质、设备在审
申请号: | 202110980645.6 | 申请日: | 2021-08-25 |
公开(公告)号: | CN113656570A | 公开(公告)日: | 2021-11-16 |
发明(设计)人: | 谯轶轩;陈浩 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/35;G06F40/279;G06N3/04;G06N3/08 |
代理公司: | 北京中强智尚知识产权代理有限公司 11448 | 代理人: | 贾依娇 |
地址: | 518000 广东省深圳市福田街*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 模型 视觉 问答 方法 装置 介质 设备 | ||
本发明提供了一种基于深度学习模型的视觉问答方法及装置、介质、设备,其中,该方法包括:利用预训练语言模型T5构架建立视觉问答模型;其中,视觉问答模型包括编码器子模型和解码器子模型;获取图像数据和问题数据,输入至视觉问答模型,利用视觉问答模型中的编码器子模型在预设分类类别中匹配得到问题数据对应的分类式第一答案;利用视觉问答模型中的解码器子模型结合常见字词表得到生成式第二答案;计算第一答案和第二答案对应的预测概率,以选取第一答案和/或第二答案作为目标答案并输出。通过本发明,视觉问答的最终答案既可以是常见类别匹配的也可以是自动生成的,根据预测概率的高低选取输出答案,提高了结果准确率。
技术领域
本发明涉及人工智能领域,特别是一种基于深度学习模型的视觉问答方法及装置、介质、设备。
背景技术
视觉问答(Visual Question Answering,VQA)是一个需要同时理解文本和视觉的热门领域。需要计算机算法构建的模型有一定的推理能力,相比传统计算机视觉任务有更高的要求。视觉问答是一个能够回答关于图像的自然语言问题的系统,一直深受前沿技术研究和领域工程的追捧。
目前主流视觉问答模型主要采用判别式模型,即分类模型,通过采用深度学习领域常见的分类模型对答案的类别进行预测,有以下几点缺陷:类别是预先定义好的,模型能给出的答案无法超过给定的类别,从而影响了最终结果的准确性,但这一类错误是由于模型的设计所造成的,模型或许已经学习到了所需信息,只不过最终的类别对其进行了限制;预先定义的类别数量是巨大的,至少大于常见的3K个类别,有些大型互联网公司设置的类别甚至会超过几十万,如此大规模的类别容易造成对常见类别模型的学习较为充分,非常见类别很少被模型学习,导致对其预测不准确,且严重影响了模型的训练效率以及后期业务上线的部署难度。
发明内容
鉴于上述问题,本发明提出了一种基于深度学习模型的视觉问答方法及装置、介质、设备。本发明提供的视觉问答方法除了具备能从常见类别预测的能力,也可以自己生成所需要的答案,且模型可以根据分数高低有选择的决定最终答案是常见类别匹配的还是自动生成的,实现了自动化的生成式视觉问答、提高了视觉问答结果准确率。
依据本发明第一方面,提供了一种基于深度学习模型的视觉问答方法,包括:
利用预训练语言模型T5构架建立视觉问答模型;其中,所述视觉问答模型包括编码器子模型和解码器子模型;
获取图像数据和问题数据;将所述图像数据和所述问题数据输入至所述视觉问答模型,利用所述视觉问答模型中的所述编码器子模型在预设分类类别中匹配得到所述问题数据对应的分类式第一答案;
利用所述视觉问答模型中的所述解码器子模型结合常见字词表得到所述问题数据对应的生成式第二答案;
分别计算所述第一答案和所述第二答案对应的预测概率,以选取所述第一答案和/或所述第二答案作为所述问题数据对应的目标答案并输出。
可选地,所述利用所述视觉问答模型中的所述编码器子模型在预设分类类别中匹配得到所述问题数据对应的分类式第一答案,包括:
将所述图像数据输入至基于深度学习的目标检测Faster R-CNN模型,抽取所述图像对应的图像特征和图像特征类别,并将所述图像特征和所述图像特征类别转换为具有第一向量维度的图像特征向量和具有第二向量维度的图像特征类别向量;
对所述问题数据进行文本分词处理,得到文本元素,利用预设的词向量模型将所述文本元素转换为具有第二向量维度的文本元素向量;
将所述图像特征向量、所述文本元素向量和所述图像特征类别向量输入至所述编码器子模型,利用所述编码子模型器拼接所述图像特征向量、所述文本元素向量和所述图像特征类别向量,得到向量矩阵;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110980645.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种盐渍土路基的施工方法及其应用
- 下一篇:一种图像采集系统、方法及电子设备