[发明专利]图文预训练模型训练、图文预测模型训练方法和装置在审
申请号: | 202210108283.6 | 申请日: | 2022-01-28 |
公开(公告)号: | CN114419351A | 公开(公告)日: | 2022-04-29 |
发明(设计)人: | 王腾;姜文浩;郑锋 | 申请(专利权)人: | 深圳市腾讯计算机系统有限公司 |
主分类号: | G06V10/75 | 分类号: | G06V10/75;G06V10/774;G06K9/62 |
代理公司: | 华进联合专利商标代理有限公司 44224 | 代理人: | 毛丹 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 图文 训练 模型 预测 方法 装置 | ||
本申请涉及一种图文预训练模型训练、图文预测模型训练方法、装置、计算机设备、存储介质和计算机程序产品。方法包括:将训练图像原始特征和训练文本原始特征进行特征掩盖,得到训练图像目标特征和训练文本目标特征,并将训练图像目标特征和训练文本目标特征输入到初始图文预训练模型中进行图文匹配程度评估,得到初始图文匹配程度,并使用初始图文匹配程度、训练目标图像特征和训练目标文本特征进行跨模态信息交互,得到初始图像交互特征和初始文本交互特征,并进行迭代训练得到目标图文预训练模型。采用本方法能够提高训练的准确性。本发明实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。
技术领域
本申请涉及计算机技术领域,特别是涉及一种图文预训练模型训练、图文预测模型训练方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
随着人工智能技术的发展,出现了使用图像和文本进行任务预测技术,比如,视觉问答、图文检测、视觉常识推理等。目前,通常在预训练模型的基础上进一步进行训练来得到图文预测模型,从而可以提高图文预测模型的训练效果。在训练预训练模型时,通常使用图像编码器和语言编码器分别进行预训练,来得到预训练模型。然而,通过独立训练的方法在预训练期间无法学习到跨模态的信息,从而导致得到的预训练模型的准确性降低,进而导致训练得到的图文预测模型的准确性降低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高预训练模型的准确性,进而提高图文预测模型的准确性的图文预训练模型训练、图文预测模型训练方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
一方面,本申请提供了一种图文预训练模型训练方法。所述方法包括:
获取训练图像对应的训练图像原始特征和训练文本对应的训练文本原始特征;
基于训练图像原始特征和训练文本原始特征进行特征掩盖,得到训练图像目标特征和训练文本目标特征,并将训练图像目标特征和训练文本目标特征输入到初始图文预训练模型中;
通过初始图文预训练模型使用训练目标图像特征和训练目标文本特征进行图文匹配程度评估,得到初始图文匹配程度;
通过初始图文预训练模型使用初始图文匹配程度、训练目标图像特征和训练目标文本特征进行跨模态信息交互,得到初始图像交互特征和初始文本交互特征;
基于训练图像原始特征、训练文本原始特征、初始图像交互特征、初始文本交互特征和初始图片匹配程度进行模型损失计算,得到训练模型损失信息;
基于训练模型损失信息训练初始图文预训练模型,直到达到训练完成条件时,得到目标图文预训练模型,目标图文预训练模型用于训练基于图像和文本进行跨模态预测的模型。
在其中一个实施例中,所述计算所述训练图像与所述训练文本之间的相似程度,基于所述相似程度和所述图文匹配程度进行损失计算,得到匹配损失信息,包括:
获取训练图像对应的训练对象类别信息,并计算所述训练对象类别信息对应的类别权重向量;
基于所述训练文本进行词权重向量计算,得到词权重向量,并计算所述类别权重向量与所述类别权重向量之间的权重向量相似程度;
计算所述权重向量相似程度与所述图文匹配程度之间的最小平方误差,得到所述匹配损失信息。
另一方面,本申请还提供了一种图文预训练模型训练装置。所述装置包括:
特征获取模块,用于获取训练图像对应的训练图像原始特征和训练文本对应的训练文本原始特征;
特征掩盖模块,用于基于训练图像原始特征和训练文本原始特征进行特征掩盖,得到训练图像目标特征和训练文本目标特征,并将训练图像目标特征和训练文本目标特征输入到初始图文预训练模型中;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市腾讯计算机系统有限公司,未经深圳市腾讯计算机系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210108283.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种泌尿外科全体位手术台
- 下一篇:执行切换的方法和用于切换的基础设施设备