[发明专利]神经网络模型的训练方法、装置、设备、介质及程序产品在审
申请号: | 202210729410.4 | 申请日: | 2022-06-24 |
公开(公告)号: | CN115115049A | 公开(公告)日: | 2022-09-27 |
发明(设计)人: | 刘刚 | 申请(专利权)人: | 腾讯科技(武汉)有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 汪哲雯;张颖玲 |
地址: | 430000 湖北省武*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 神经网络 模型 训练 方法 装置 设备 介质 程序 产品 | ||
1.一种神经网络模型的训练方法,其特征在于,所述方法包括:
获取图像的多个模态的特征;其中,所述多个模态的特征包括图像特征、标题文本特征和标签文本特征;
基于所述图像特征以及所述标题文本特征进行融合处理,得到跨模态的第一融合特征;
基于所述多个模态的特征调用第一神经网络模型进行多个单模态的预测任务,得到对应的单模态的预测结果,并基于每个所述模态内的预测结果确定对应的单模态损失;
基于所述第一融合特征调用所述第一神经网络模型进行多个跨模态的预测任务,得到对应的跨模态的预测结果,并基于每个所述跨模态的预测结果确定对应的跨模态损失;
基于所述单模态损失与所述跨模态损失进行反向传播,以更新所述第一神经网络模型的参数。
2.根据权利要求1所述的方法,其特征在于,
所述获取图像的多个模态的特征,包括:
对所述图像进行数据增强处理,得到增强后图像;
基于所述图像调用第二神经网络模型进行图像特征提取处理,得到所述图像对应的第一图像特征;
基于所述增强后图像调用所述第二神经网络模型进行所述图像特征提取处理,得到所述增强后图像对应的第二图像特征;
对所述图像对应的所述标题进行分词处理,基于得到的所述标题的分词结果调用第三神经网络模型进行两次文本特征提取处理,得到第一标题文本特征和第二标题文本特征;其中,当调用所述第三神经网络模型进行所述文本特征提取处理时,丢弃所述第三神经网络模型中第一比例的神经元;
对所述图像对应的所述标签进行分词处理,基于得到的所述标签的分词结果调用所述第三神经网络模型进行所述文本特征提取处理,得到所述标签文本特征。
3.根据权利要求1所述的方法,其特征在于,
当所述单模态的预测任务为图像模态的相似度预测任务时,所述多个模态的特征包括所述图像特征,所述图像特征包括第一图像特征和第二图像特征,所述第一图像特征和所述第二图像特征,是基于所述图像和增强后图像调用第二神经网络模型进行图像特征提取处理得到的;
当所述单模态的预测任务为所述图像模态的相似度预测任务时,所述基于所述多个模态的特征调用所述第一神经网络模型进行多个单模态的预测任务,得到对应的所述多个单模态的预测结果,并基于每个所述模态内的预测结果确定对应的单模态损失,包括:
基于所述第一图像特征和所述第二图像特征调用所述第一神经网络模型,进行所述图像模态的相似度预测任务,得到所述第一图像特征和所述第二图像特征的第一预测相似度,并将所述第一预测相似度确定为所述图像模态的损失。
4.根据权利要求1所述的方法,其特征在于,
当所述单模态的预测任务为标题模态的相似度预测任务时,所述多个模态的特征包括所述标题文本特征,所述标题文本特征包括第一标题文本特征和第二标题文本特征,所述第一标题文本特征和所述第二标题文本特征,是基于所述图像对应的标题调用第三神经网络模型进行两次文本特征提取处理得到的;
当所述单模态的预测任务为所述标题模态的相似度预测任务时,所述基于所述多个模态的特征调用所述第一神经网络模型进行多个单模态的预测任务,得到对应的所述多个单模态的预测结果,并基于每个所述模态内的预测结果确定对应的单模态损失,包括:
基于所述第一标题文本特征和所述第二标题文本特征调用所述第一神经网络模型,进行所述标题模态的相似度预测任务,得到所述第一标题文本特征和所述第二标题文本特征的第二预测相似度,并将所述第二预测相似度确定为所述标题模态的损失。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(武汉)有限公司,未经腾讯科技(武汉)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210729410.4/1.html,转载请声明来源钻瓜专利网。