[发明专利]一种基于无监督知识增强的视觉-语言预训练方法及装置在审

申请号：	202310043498.9	申请日：	2023-01-29
公开（公告）号：	CN116049367A	公开（公告）日：	2023-05-02
发明（设计）人：	苏海波;苏萌;刘译璟;赵群;杜晓梦	申请（专利权）人：	北京百分点科技集团股份有限公司
主分类号：	G06F16/332	分类号：	G06F16/332;G06F16/951;G06F18/214;G06N5/022
代理公司：	成都正煜知识产权代理事务所(普通合伙) 51312	代理人：	徐金琼
地址：	100089 北京市海淀***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于监督知识增强视觉语言训练方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及多模态机器学习领域，提供了一种基于无监督知识增强的视觉‑语言预训练方法及装置。目的在于在于克服上述问题，使得视觉‑语言预训练模型适用于通用领域，且不需要进行编码、挑选和融入，模型简单有效，训练时间大幅度缩短。主要方案包括对互联网现有的大量图片和文本进行收集，得到大量无标注的包含图片和文本的多模态数据；对得到的大规模多模态数据集进行无监督训练，得到知识标注模块；将得到的知识标注模块与原有的视觉‑语言预训练模型进行联合训练，得到最终完整的视觉‑语言预训练模块；使用视觉常识推理任务提高的测试集对得到的视觉‑语言模块进行测试，得到最终的预训练模型。

技术领域

本发明涉及多模态机器学习领域，提供了一种基于无监督知识增强的视觉-语言预训练方法及装置。

背景技术

百度的ERNIE-ViL是现有的知识增强的多模态预训练模型。其实施步骤可被概括如下:

(1)百度的ERNIE-ViL预训练任务可以被简单概括为:视觉问答。简单来说，视觉问答可以看成是看图问答。输入给模型的是图片和有关该图片的一些问题，模型被要求给出问题的答案。由于输入是图片（视觉模态），输出是问题（文本模态），所以该任务是典型的多模态预训练任务。

(2)目前主流的公开的视觉-语言预训练数据集，如：COCO。COCO 是一个大型、丰富的物体检测、分割和描述数据集。数据集以场景理解为目标,主要从复杂的日常场景中截取,图像中的目标通过精确的分割进行位置标定,含 91 个常见对象类别,其中 82 类有超过 5 000 个标签实例,共含 32. 8 万幅图像和 250 万个标签实例。

(3)视觉-语言预训练技术的目标是让人工智能学习视觉-语言模态之间的语义对齐，通俗来说，就是让人工智能更准确地描述出场景中的内容。为了实现该目标，百度标注了（物体、属性、关系）的大规模知识数据集。由于百度预训练任务希望找出物体之间的（属性、关系），而事物之间的关系和属性纷繁复杂，因此新标注的数据集样本数量需大于COCO数据集样本数量，即：样本数量至少需要是百万级别，需要耗费大量标注人力与金钱成本。

(4)在标注的（物体、属性、关系）的大规模知识数据集的基础上，百度的ERNIE-Vil需要将结构化的知识数据集中的知识转化成模型能够理解的知识向量。

(5)由于知识数据集非常庞大，所以一个样本对应的知识可能不止一个。因此，在将知识转换为知识向量后，需要从中挑选一个最适合该样本的知识向量。

(6)其次，模型送入最后挑选的知识向量，进行训练。由于训练前需要进行知识向量编码、知识向量挑选、知识向量融入三大步，再加上知识数据集规模非常大，所以训练需要花费较长的时间和计算资源。

(7)最后，将训练得到的模型进行测试，挑选出有着最好测试结果的关键点模型，作为预训练最后输出的模型。

目前现有技术存在的缺陷如下：

(1)百度视觉问答的领域与标注的大规模知识数据集的领域密切相关，可能不能进行通用场景的视觉问答；

(2)大规模知识数据集的标注成本较高，需要花费大量人力与物力。

(3)由于知识数据集规模较大，所以模型训练需要花费很多时间（需要进行知识向量生成、知识向量挑选、知识向量融入）。

发明内容

本发明的目的在于在于克服上述问题，使得视觉-语言预训练模型适用于通用领域，且不需要进行编码、挑选和融入，模型简单有效，训练时间大幅度缩短。

为了实现上述目的本发明采用以下技术手段：

一种基于无监督知识增强的视觉-语言预训练方法，无需标注且模型适配通用领域,包括以下步骤：