[发明专利]多任务模型训练方法、多任务预测方法及相关产品有效
申请号: | 202111194648.3 | 申请日: | 2021-10-13 |
公开(公告)号: | CN114095381B | 公开(公告)日: | 2023-04-04 |
发明(设计)人: | 李温鹏;邵云峰 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | H04L41/147 | 分类号: | H04L41/147;H04L41/14;G06N5/04;G06N20/00 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强;李稷芳 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 任务 模型 训练 方法 预测 相关 产品 | ||
本申请提供了一种多任务模型训练方法、多任务预测方法及相关产品。涉及人工智能领域,具体涉及计算机视觉领域。包括:通过每个门网络对训练数据进行处理,以获取与每个门网络对应的多个目标专家网络以及权重;通过多个目标专家网络分别对训练数据进行特征提取,以得到与每个门网络对应的多个第一特征;根据多个目标专家网络的权重,对多个第一特征进行加权,以得到与每个门网络对应的Tower网络的输入数据;通过每个门网络对应的Tower网络对输入数据进行任务预测,以得到每个门网络对应的Tower网络的任务预测结果;根据每个门网络对应的多个目标专家网络的权重以及多个Tower网络的任务预测结果,对多任务模型进行训练。
技术领域
本发明涉及人工智能技术领域,具体涉及一种多任务模型训练方法、多任务预测方法及相关产品。
背景技术
随着人工智能技术的发展,人们发现很多任务之间会有一些共享的数据,但是,共享的同时又会有自己独特的数据。为了能够实现底层数据的共享,各种多任务模型应运而生。当前较为流行的多任务模型是多专家网络(Multi-gate Mixture Of Experts,MMOE)。MMOE网络包括多个门(gate)网络、多个专家(expert)网络以及多个Tower网络。多个expert网络统一对底层数据进行特征提取,然后基于gate网络输出的软分类概率确定每个expert网络的权重,基于每个expert网络的权重对多个expert网络提取到的特征进行加权,以得到每个Tower网络的输入数据,进而得到每个Tower网络的任务预测结果,实现多任务预测。
然而,MMOE网络在训练的过程中,训练数据中的每个样本选择expert网络的概率是随机的,导致训练出的MMOE网络的任务识别精度较低。
发明内容
本申请提供了一种多任务模型训练方法、多任务预测方法及相关产品,通过门网络为训练数据中的每个样本选择不同的专家网络,实现专家网络的负载均衡,从而使训练出的多任务模型的识别精度较高。
第一方面,本申请实施例提供一种多任务模型训练方法,多任务模型包括多个门网络、多个专家网络以及多个Tower网络,多个门网络与多个Tower网络一一对应;方法包括:通过多个门网络中的每个门网络对训练数据进行处理,以从多个专家网络中获取与每个门网络对应的多个目标专家网络,以及获取每个门网络对应的多个目标专家网络的权重;通过每个门网络对应的多个目标专家网络分别对训练数据进行特征提取,以得到与每个门网络对应的多个目标专家网络对应的多个第一特征;根据每个门网络对应的多个目标专家网络的权重,对每个门网络对应的多个目标专家网络对应的多个第一特征进行加权,以得到与每个门网络对应的Tower网络的输入数据;通过每个门网络对应的Tower网络对每个门网络对应的Tower网络的输入数据进行任务预测,以得到每个门网络对应的Tower网络的任务预测结果;根据每个门网络对应的多个目标专家网络的权重,以及多个Tower网络的任务预测结果,对多任务模型进行训练。
可以看出,在本申请实施例中,在对多任务模型进行训练时,不是直接通过多个专家网络对训练数据进行特征提取,而是先经过门网络对训练数据进行处理,从而从多个专家网络中找到与该训练数据对应的多个专家网络,比如,选择概率靠前的多个专家网络作为与该训练数据对应的目标专家网络;然后再使用该多个目标专家网络对该训练数据进行特征提取,并参与模型的训练过程,未选择的专家网络不会进行模型的学习更新,实现为训练数据进行个性化和稀疏性的选择专家网络,对于不同的训练数据来说,会选择不同的专家网络,这样在训练过程中不会过度的利用某个专家网络,从而实现选择专家网络的负载均衡,由于训练数据在选择专家网络时实现了负载均衡,因此使每个专家网络都有充分的训练数据进行训练,从而使训练后的多个专家网络的稳定性比较高,提高多任务模型的任务预测精度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111194648.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种隧道工程可预警盾构机
- 下一篇:高弹涤氨面料及其制备方法