[发明专利]神经网络模型的训练方法、装置、设备、介质及程序产品在审

申请号：	202210729410.4	申请日：	2022-06-24
公开（公告）号：	CN115115049A	公开（公告）日：	2022-09-27
发明（设计）人：	刘刚	申请（专利权）人：	腾讯科技（武汉）有限公司
主分类号：	G06N3/08	分类号：	G06N3/08;G06N3/04
代理公司：	北京派特恩知识产权代理有限公司 11270	代理人：	汪哲雯;张颖玲
地址：	430000 湖北省武***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	神经网络模型训练方法装置设备介质程序产品
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供了一种神经网络模型的训练方法、装置、设备、介质及程序产品；其中，方法包括：获取图像的多个模态的特征；基于图像特征以及标题文本特征进行融合处理，得到跨模态的第一融合特征；基于多个模态的特征调用第一神经网络模型进行多个单模态的预测任务，得到对应的单模态的预测结果，并确定对应的单模态损失；基于第一融合特征调用第一神经网络模型进行多个跨模态的预测任务，得到对应的跨模态的预测结果，并确定对应的跨模态损失；基于单模态损失与跨模态损失进行反向传播，以更新第一神经网络模型的参数。通过本申请能够使用一个模型执行多个不同模态的任务，提高了建模效率。

技术领域

本申请涉及人工智能技术，尤其涉及一种神经网络模型的训练方法、装置、设备、介质及程序产品。

背景技术

人工智能(Artificial Intelligence，AI)是计算机科学的一个综合技术，通过研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，例如自然语言处理技术以及机器学习/深度学习等几大方向，随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

相关技术中，信息流内容处理算法模型的迭代过程通常包括以下步骤：需求确定、数据采集、模型训练、模型测试与上线。在模型训练过程中，通常是利用已有的预训练模型进行相应任务的微调，由于不同的任务对应不同类型的样本标注数据，因此，需要分别针对不同类型的任务收集大量的样本标注数据，再分别进行训练，导致建模效率低下、成本过高。

发明内容

本申请实施例提供一种神经网络模型的训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品，通过对神经网络模型执行多种不同模态的训练任务，使得神经网络模型能够应用于多种不同的场景，提高了建模效率，降低了建模成本。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种神经网络模型的训练方法，包括：

获取图像的多个模态的特征；其中，所述多个模态的特征包括图像特征、标题文本特征和标签文本特征；

基于所述图像特征以及所述标题文本特征进行融合处理，得到跨模态的第一融合特征；

基于所述多个模态的特征调用第一神经网络模型进行多个单模态的预测任务，得到对应的单模态的预测结果，并基于每个所述模态内的预测结果确定对应的单模态损失；

基于所述第一融合特征调用所述第一神经网络模型进行多个跨模态的预测任务，得到对应的跨模态的预测结果，并基于每个所述跨模态的预测结果确定对应的跨模态损失；

基于所述单模态损失与所述跨模态损失进行反向传播，以更新所述第一神经网络模型的参数。

上述方法还包括：

调用第二神经网络模型执行以下处理：

对所述图像进行分块处理，基于得到多个图像块进行线性投射处理，得到对应的多个线性投射特征；