[发明专利]一种深度学习模型训练方法、装置及相关设备在审
申请号: | 202111643825.1 | 申请日: | 2021-12-29 |
公开(公告)号: | CN116432011A | 公开(公告)日: | 2023-07-14 |
发明(设计)人: | 鲍翔;马婧婷;付烁;宁振江 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F18/214 | 分类号: | G06F18/214;G06N3/0464;G06N3/084 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 罗晓敏 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 深度 学习 模型 训练 方法 装置 相关 设备 | ||
本申请公开了一种深度学习模型训练方法,该深度学习模型包括多个层,并且每层包括至少一个参数,在深度学习模型的第一训练阶段中进行反向计算之后,对多个层的第一层的第一参数进行调整;具体的,确定第一参数的第一调整值,并确定第一调整值是否超出调整上限;在超过调整上限时,将第一调整值修正为第二调整值,该第二调整值小于等于该调整上限,从而根据第二调整值对第一参数进行调整。如此,参数的调整值在每轮迭代时均可以被限制在稳定范围内,这使得即使超参数设置不合适,深度学习模型也会因为参数值的变化稳定而能够收敛。如此可以降低深度学习模型的训练成本、提高训练效率。此外,本申请还提供了对应的装置及相关设备。
技术领域
本申请涉及人工智能技术领域,尤其涉及一种深度学习模型训练方法、装置及相关设备。
背景技术
目前,深度学习(deep learning)技术作为人工智能(artificial intelligence,AI)领域的其中一个主流研究方向,广泛应用于计算机视觉、自然语言处理、数据搜索、信息推荐等众多场景中,通常可以基于深度学习算法构建的深度学习模型输出符合用于预期的结果。
在迭代训练深度学习模型的过程中,针对每次迭代,在对深度学习模型经过前向计算后,需要根据前向计算后确定的损失值,通过后向计算对深度学习模型中各个层的参数进行调整,以提升深度学习模型的精确度。在当前的深度学习模型中,每个参数的调整值根据所述损失值以及每个参数对应的超参数确定,如果超参数设置的不准确,会影响深度学习模型的收敛速度和最终收敛精度。
基于此,针对不同场景、不同深度学习模型甚至不同训练数据,通常会在训练深度学习模型时,耗费较多时间和成本为优化器寻找合适的超参数,以保证深度学习模型的训练效果,这不仅增加了深度学习模型的训练成本,而且也降低了深度学习模型的训练效率。
发明内容
本申请实施例提供一种深度学习模型训练方法、装置及相关设备,以降低深度学习模型的训练成本、提高训练效率。
第一方面,本申请实施例提供一种深度学习模型训练方法,该深度学习模型包括多个 (网络)层,并且每层包括至少一个参数,如权重值等,在对该深度学习模型进行训练的过程中,在深度学习模型的第一训练阶段中进行反向计算之后,对多个层的第一层的第一参数进行调整,其中,第一层为多个层中的其中一层,多个第一参数为至少一个参数中的其中一个参数;在具体调整第一参数时,确定第一参数的第一调整值,并进一步确定该第一调整值是否超出第一参数的调整上限;在第一调整值超过该第一参数的调整上限时,将第一调整值修正为第二调整值,该第二调整值小于等于该调整上限,从而可以根据第二调整值对第一参数进行调整,如将第二调整值与调整前的第一参数的值之和作为调整后的第一参数的值等。
由于在训练深度学习模型的过程中,对深度学习模型中参数的调整值进行限制,因此,无论深度学习模型对应的超参数设置是否合适,在每轮迭代更新参数的参数值时,该参数的调整值(也可称之为参数更新量)均可以被限制在一个稳定的范围内,这使得即使超参数设置不合适,深度学习模型也会因为参数值的变化稳定而能够收敛。如此,在训练深度学习模型时可以不用耗费大量时间和成本为优化器寻找合适的超参数,也可以尽可能避免因为调整超参数而对深度学习模型进行重训练,这不仅可以降低深度学习模型的训练成本,而且也能提高深度学习模型的训练效率。
在一种可能的实施方式中,在训练深度学习模型的过程中,还可以根据第二调整值调整第一参数的调整上限,如可以根据第二调整值减小第一参数的调整上限等,以此可以实现对调整上限进行动态更新,提高调整上限的可靠性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111643825.1/2.html,转载请声明来源钻瓜专利网。