[发明专利]一种深度神经网络的微调方法在审
申请号: | 201911314756.2 | 申请日: | 2019-12-18 |
公开(公告)号: | CN111191768A | 公开(公告)日: | 2020-05-22 |
发明(设计)人: | 张伯政;吴军;何彬彬;张福鑫;张述睿;樊昭磊 | 申请(专利权)人: | 山东众阳健康科技集团有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 济南泉城专利商标事务所 37218 | 代理人: | 支文彬 |
地址: | 250001 山东省济南市市辖区*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 深度 神经网络 微调 方法 | ||
一种深度神经网络的微调方法,在对预训练的模型进行微调时,不再训练预训练后的模型参数,因而不会遗忘模型在预训练中学习到的基础模式。在训练中,针对预训练部分与针对特定任务增加的模型部分的参数分开正则,可以较好的控制模型的微调过程即不会出现严重的偏离,又能保证模型增加部分的充分学习。
技术领域
本发明涉及神经网络技术领域,具体涉及一种深度神经网络的微调方法。
背景技术
近年来,在人工智能领域,随着任务的复杂性逐渐提高,在针对特定任务训练之前,使用成熟的同模态的大型数据集对深度神经网络模型进行预训练的方法,扮演者越来越重要的角色。其中图像领域尤以ImageNet、Objects365等大型数据集中的预训练为多,自然语言处理领域各种预训练深度神经网络模型如GPT、Elmo、BERT更是赢得业界交口称赞。
但将预训练好的深度神经网络模型在特定任务上进行微调的时候,由于其模型的参数规模通常较大,而特定任务的数据规模通常较小。这常常会带来一个矛盾之处,即:如果模型在特定任务上训练得越好,模型在原有数据集上学习到的基础模式会遗忘得越严重,模型泛化性能出现下降;但如果要降低模型在预训练中学习到的基础模式的遗忘,则模型往往在特定任务的训练中欠学习,特定任务的表现不佳。
又由于模型预训练部分的参数量巨大,而针对特定任务增补的部分的参数量较小。在使用较小学习率进行微调时,往往会出现,模型预训练部分由于参数量巨大已经过学习,而针对特定任务增补的部分由于参数量较小还欠学习的前后矛盾状态,最终导致模型表现不佳。
发明内容
本发明为了克服以上技术的不足,提供了一种使模型微调过程中不会出现严重的偏离且确保模型增加部分充分学习的深度神经网络的微调方法。
本发明克服其技术问题所采用的技术方案是:
一种深度神经网络的微调方法,包括如下步骤:
a)将深度神经网络模型定义为Mθ,M为模型,θ为模型中的所有参数,利用公式计算模型Mθ对数据集中输入数据x的预测结果
b)将经过预训练的模型定义为θ0为在预训练任务重表现最优的参数;
c)当需要在特定任务上对模型进行微调时,初始化参数集Δ,参数集Δ中的参数个数与θ0中的参数个数相同,参数集Δ中的参数与θ0中的参数一一对应,使用0值初始化参数集Δ中的各个参数,使用θ0+Δ替代步骤a)中的θ,深度神经网络模型变化为
d)使用在模型的特定任务上,使用公式计算预测结果式中M'为针对特定任务添加的模型,β为模型M'中的所有参数;
e)通过公式计算新的损失函数,式中loss为特定任务中的损失函数,rΔ为模型预训练部分的正则化项系数,∑Δ2为模型训练部分的正则化项,rβ为针对特定任务添加的模型的参数的正则化项系数,∑β2为针对特定任务添加的模型的参数的正则化项;
f)使用新的损失函数loss+rΔ×∑Δ2+rβ×∑β2对模型进行微调。
本发明的有益效果是:在对预训练的模型进行微调时,不再训练预训练后的模型参数,因而不会遗忘模型在预训练中学习到的基础模式。在训练中,针对预训练部分与针对特定任务增加的模型部分的参数分开正则,可以较好的控制模型的微调过程即不会出现严重的偏离,又能保证模型增加部分的充分学习。
具体实施方式
下面对本发明做进一步说明。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东众阳健康科技集团有限公司,未经山东众阳健康科技集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911314756.2/2.html,转载请声明来源钻瓜专利网。