[发明专利]一种复用深度神经网络模型训练模型的方法和系统在审
申请号: | 201910544437.4 | 申请日: | 2019-06-21 |
公开(公告)号: | CN110428051A | 公开(公告)日: | 2019-11-08 |
发明(设计)人: | 段凌宇;陈子谦;楼燚航;黄铁军 | 申请(专利权)人: | 北京大学 |
主分类号: | G06N3/08 | 分类号: | G06N3/08 |
代理公司: | 北京辰权知识产权代理有限公司 11619 | 代理人: | 刘广达 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 复用 神经网络模型 复用模型 信息特征 训练模型 数据集 任务数据 规约 场景 标签混合 反向传播 特征变换 权重 尺度 协同 更新 申请 | ||
本申请公开了一种复用深度神经网络模型训练模型的方法和系统。获取在其他数据集下训练好的深度神经网络模型作为复用模型;获取复用模型在给定任务数据集下的不同表层的信息特征并进行特征变换;获取待训练的深度神经网络模型在给定任务数据集下,针对数据集提取的信息特征,使用从复用模型提取的变换后的信息特征进行权重与尺度规约,并用于复用损失和待训练损失进行协同训练。本发明能够同时复用多个模型,且根据总损失使用反向传播训练和更新待训练模型,能够在数据集有无标签混合场景下以及在不同任务训练好的模型场景下,对模型进行较好的复用,提升复用模型的利用率以及模型复用的性能。
技术领域
本申请涉及人工智能技术领域,尤其涉及一种复用深度神经网络模型训练模型的方法和系统。
背景技术
随着人工智能的发展,各种深度神经网络模型不断发展,并且广泛的在网络中传播并发展,深度神经网络展现了其强大的能力,并在各个领域取得了卓越的效果。然而,随着深度神经网络的发展,其获得模型训练时需要的庞大计算资源和存储开销亦备受关注。因此,如何高效的复用已训练好的深度神经网络模型亦成为一项极其有意义的工作。
传统复用深度神经网络的迁移学习方法,常直接利用已训练好的模型直接在目标数据集下进行训练;抑或选择采用已训练好的模型的同任务的损失函数在待训练数据集下,指导目标模型的训练。但在处理较为复杂的数据集有无标签混合场景及不同任务下训练好的模型场景下无法进行较好的复用。
同时,针对多个模型场景下,如何较好的复用多个模型来逐级提升性能亦是一个极具挑战性的任务。
综上所述,需要提供一种能够同时复用多个模型,且在数据集有无标签混合场景下以及在不同任务训练好的模型场景下,能够对模型进行较好复用的复用深度神经网络模型训练模型的方法和系统。
发明内容
为解决以上问题,本申请提出了一种复用深度神经网络模型训练模型的方法和系统。
一方面,本申请提出一种复用深度神经网络模型训练模型的方法,包括:
将数据集分别输入复用模型和待训练模型,得到复用特征、待训练特征和待训练模型损失;
使用映射矩阵、复用特征和待训练特征计算复用模型和待训练模型之间的复用损失;
使用待训练模型损失和复用损失计算总损失;
根据总损失使用反向传播训练和更新待训练模型和映射矩阵。
优选地,还包括:当训练次数达到训练周期时,停止训练和更新所述待训练模型和映射矩阵,或当总损失小于等于阈值时,停止训练和更新所述待训练模型和映射矩阵。
优选地,当复用模型为多个时,使用各映射矩阵、各复用特征和各待训练特征分别计算各复用模型和待训练模型之间的复用损失。
优选地,所述将数据集分别输入复用模型和待训练模型,得到复用特征、待训练特征和待训练模型损失,包括:
将数据集输入复用模型中,从所述复用模型中提取除最后一层以外的至少一层输出的复用特征;
将数据集输入待训练模型中,从待训练模型中提取除去最后一层以外的至少一层输出的待训练特征;以及从待训练模型的最后一层中,提取待训练模型损失。
优选地,从复用模型中提取的复用特征的数量与从待训练模型中提取的待训练特征的数量相同。
优选地,当复用模型为多个时,从各复用模型中提取的复用特征的数量不同或相同。
优选地,所述使用映射矩阵、复用特征和待训练特征计算复用模型和待训练模型之间的复用损失,包括:
将待训练特征中各层的待训练特征分别乘以映射矩阵后,得到各层的映射特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910544437.4/2.html,转载请声明来源钻瓜专利网。