[发明专利]一种复用深度神经网络模型训练模型的方法和系统在审

申请号：	201910544437.4	申请日：	2019-06-21
公开（公告）号：	CN110428051A	公开（公告）日：	2019-11-08
发明（设计）人：	段凌宇;陈子谦;楼燚航;黄铁军	申请（专利权）人：	北京大学
主分类号：	G06N3/08	分类号：	G06N3/08
代理公司：	北京辰权知识产权代理有限公司 11619	代理人：	刘广达
地址：	100871***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	复用神经网络模型复用模型信息特征训练模型数据集任务数据规约场景标签混合反向传播特征变换权重尺度协同更新申请
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种复用深度神经网络模型训练模型的方法和系统。获取在其他数据集下训练好的深度神经网络模型作为复用模型；获取复用模型在给定任务数据集下的不同表层的信息特征并进行特征变换；获取待训练的深度神经网络模型在给定任务数据集下，针对数据集提取的信息特征，使用从复用模型提取的变换后的信息特征进行权重与尺度规约，并用于复用损失和待训练损失进行协同训练。本发明能够同时复用多个模型，且根据总损失使用反向传播训练和更新待训练模型，能够在数据集有无标签混合场景下以及在不同任务训练好的模型场景下，对模型进行较好的复用，提升复用模型的利用率以及模型复用的性能。

技术领域

本申请涉及人工智能技术领域，尤其涉及一种复用深度神经网络模型训练模型的方法和系统。

背景技术

随着人工智能的发展，各种深度神经网络模型不断发展，并且广泛的在网络中传播并发展，深度神经网络展现了其强大的能力，并在各个领域取得了卓越的效果。然而，随着深度神经网络的发展，其获得模型训练时需要的庞大计算资源和存储开销亦备受关注。因此，如何高效的复用已训练好的深度神经网络模型亦成为一项极其有意义的工作。

传统复用深度神经网络的迁移学习方法，常直接利用已训练好的模型直接在目标数据集下进行训练；抑或选择采用已训练好的模型的同任务的损失函数在待训练数据集下，指导目标模型的训练。但在处理较为复杂的数据集有无标签混合场景及不同任务下训练好的模型场景下无法进行较好的复用。

同时，针对多个模型场景下，如何较好的复用多个模型来逐级提升性能亦是一个极具挑战性的任务。

综上所述，需要提供一种能够同时复用多个模型，且在数据集有无标签混合场景下以及在不同任务训练好的模型场景下，能够对模型进行较好复用的复用深度神经网络模型训练模型的方法和系统。

发明内容

为解决以上问题，本申请提出了一种复用深度神经网络模型训练模型的方法和系统。

一方面，本申请提出一种复用深度神经网络模型训练模型的方法，包括：

将数据集分别输入复用模型和待训练模型，得到复用特征、待训练特征和待训练模型损失；

使用映射矩阵、复用特征和待训练特征计算复用模型和待训练模型之间的复用损失；

使用待训练模型损失和复用损失计算总损失；

根据总损失使用反向传播训练和更新待训练模型和映射矩阵。

优选地，还包括：当训练次数达到训练周期时，停止训练和更新所述待训练模型和映射矩阵，或当总损失小于等于阈值时，停止训练和更新所述待训练模型和映射矩阵。

优选地，当复用模型为多个时，使用各映射矩阵、各复用特征和各待训练特征分别计算各复用模型和待训练模型之间的复用损失。