[发明专利]神经网络模型的训练方法、装置、设备、介质及程序产品在审
申请号: | 202210729410.4 | 申请日: | 2022-06-24 |
公开(公告)号: | CN115115049A | 公开(公告)日: | 2022-09-27 |
发明(设计)人: | 刘刚 | 申请(专利权)人: | 腾讯科技(武汉)有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 汪哲雯;张颖玲 |
地址: | 430000 湖北省武*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 神经网络 模型 训练 方法 装置 设备 介质 程序 产品 | ||
本申请提供了一种神经网络模型的训练方法、装置、设备、介质及程序产品;其中,方法包括:获取图像的多个模态的特征;基于图像特征以及标题文本特征进行融合处理,得到跨模态的第一融合特征;基于多个模态的特征调用第一神经网络模型进行多个单模态的预测任务,得到对应的单模态的预测结果,并确定对应的单模态损失;基于第一融合特征调用第一神经网络模型进行多个跨模态的预测任务,得到对应的跨模态的预测结果,并确定对应的跨模态损失;基于单模态损失与跨模态损失进行反向传播,以更新第一神经网络模型的参数。通过本申请能够使用一个模型执行多个不同模态的任务,提高了建模效率。
技术领域
本申请涉及人工智能技术,尤其涉及一种神经网络模型的训练方法、装置、设备、介质及程序产品。
背景技术
人工智能(Artificial Intelligence,AI)是计算机科学的一个综合技术,通过研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,例如自然语言处理技术以及机器学习/深度学习等几大方向,随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
相关技术中,信息流内容处理算法模型的迭代过程通常包括以下步骤:需求确定、数据采集、模型训练、模型测试与上线。在模型训练过程中,通常是利用已有的预训练模型进行相应任务的微调,由于不同的任务对应不同类型的样本标注数据,因此,需要分别针对不同类型的任务收集大量的样本标注数据,再分别进行训练,导致建模效率低下、成本过高。
发明内容
本申请实施例提供一种神经网络模型的训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品,通过对神经网络模型执行多种不同模态的训练任务,使得神经网络模型能够应用于多种不同的场景,提高了建模效率,降低了建模成本。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种神经网络模型的训练方法,包括:
获取图像的多个模态的特征;其中,所述多个模态的特征包括图像特征、标题文本特征和标签文本特征;
基于所述图像特征以及所述标题文本特征进行融合处理,得到跨模态的第一融合特征;
基于所述多个模态的特征调用第一神经网络模型进行多个单模态的预测任务,得到对应的单模态的预测结果,并基于每个所述模态内的预测结果确定对应的单模态损失;
基于所述第一融合特征调用所述第一神经网络模型进行多个跨模态的预测任务,得到对应的跨模态的预测结果,并基于每个所述跨模态的预测结果确定对应的跨模态损失;
基于所述单模态损失与所述跨模态损失进行反向传播,以更新所述第一神经网络模型的参数。
上述方法还包括:
调用第二神经网络模型执行以下处理:
对所述图像进行分块处理,基于得到多个图像块进行线性投射处理,得到对应的多个线性投射特征;
对每个所述线性投射特征与对应的位置特征进行求和处理,基于得到的求和结果进行自注意力计算处理,得到每个所述线性投射特征对应的第一自注意力特征;
基于多个所述第一自注意力特征进行全连接计算处理,得到所述图像对应的第一图像特征。
上述方法还包括:
调用第三神经网络模型执行以下处理:
对所述标签的分词结果包括的多个分词进行编码处理,得到每个所述分词对应的上下文特征;其中,所述编码处理包括多个级联的编码处理;
将多个所述分词对应的上下文特征,确定为所述标签文本特征。
上述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(武汉)有限公司,未经腾讯科技(武汉)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210729410.4/2.html,转载请声明来源钻瓜专利网。