[发明专利]一种高维度深度学习模型的收敛方法和装置有效

申请号：	201710332393.X	申请日：	2017-05-12
公开（公告）号：	CN108875927B	公开（公告）日：	2021-05-11
发明（设计）人：	庄雨铮;郑荣福;魏建生	申请（专利权）人：	华为技术有限公司
主分类号：	G06N3/08	分类号：	G06N3/08
代理公司：	北京亿腾知识产权代理事务所(普通合伙) 11309	代理人：	陈霁
地址：	518129 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种维度深度学习模型收敛方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例公开了一种高维度深度学习模型的收敛方法和装置。所述方法包括根据误差表面的第一位置，对模型进行一次单位迭代，以确定模型的解在误差表面的第二位置；根据一次单位迭代，确定第二位置相对于误差表面的梯度和曲率，以及根据第一位置和第二位置确定模型的解的精度增长效率和模型误差；根据所述梯度、曲率、精度增长效率和模型误差，确定第二位置是否为误差表面的鞍点或高噪点；在所述误差表面的第二位置为鞍点或高噪点时，调整下一次单位迭代的批量数。本发明实施例根据鞍点或高噪来确定模型在下一批次迭代时的批量数。由此实现了，通过调适迭代过程中梯度和随机估计噪音量来优化模型的解的精度增长效率和逃脱鞍点。

技术领域

本发明涉及技术领域，尤其涉及一种高维度深度学习模型的收敛方法和装置。

背景技术

随着大数据在各行各业的蓬勃发展，很多人工智能领域的应用通过深度学习的方法出现在我们的生活中。深度学习通过构建深层神经网络来模拟人类大脑的工作原理。这种深层神经网络机构近年来在在语音识别，图像识别，自然语言处理等领域均取得了突破性的进展。

深度神经网络的参数量非常庞大，可以达到千万以至于上亿的级别。对于深度学习的模型训练，包括采用小批量随机梯度下降(MBGD，Mini-batch Gradient Descent)的方法，从而寻求模型的最优解。

MBGD的优点主要是训练速度快且收敛相对稳定，它是融合了梯度下降(GD，Gradient Descent)和随机梯度下降(SGD，Stochastic Gradient Descent)思想的一个折中的方法。MBGD的收敛取决于学习率的选择和梯度的随机估计。

MBGD的收敛过程极大的依赖于学习率的和梯度的随机估计噪音量。但是因为MBGD批量样本选择的随机性决定每次迭代的步长，梯度的随机估计噪音量决定每次迭代的梯度方向。针对这两者的优化措施可以有效的提高模型的解的精度增长效率。

并且，在高纬度的深度神经网络的误差表面上，影响收敛的还包括大量的鞍点。所以在收敛过程中，逃脱鞍点是决定模型的解的精度增长效率的关键点。

在大规模机器学习问题中通过调适迭代过程中梯度和随机估计噪音量来优化模型的解的精度增长效率和逃脱鞍点的方法目前相对空白。

发明内容

本发明实施例提供了一种高维度深度学习模型的收敛方法和装置，可以实现根据模型当前的解在误差表面的鞍点或高噪点时，调整下一次单位迭代的批量数。

一方面，本发明实施例提供了一种高维度深度学习模型的收敛方法。所述方法包括：根据误差表面的第一位置，对模型采用小批量随机梯度下降的方法进行一次单位迭代，以确定模型的解在误差表面的第二位置，其中，所述一次单位迭代是以批量数为N，对模型进行N次迭代，所述模型包括至少X轴、Y轴和Z轴三个维度,所述误差表面是模型的解的集合，N为大于等于1的正整数，所述第一位置为当前模型的解在误差表面的位置，所述第二位置为模型在第一位置进行一次单位迭代后模型的解在误差表面的位置；根据所述一次单位迭代，确定第二位置相对于误差表面的梯度和曲率，以及根据所述第一位置和所述第二位置确定模型的解的精度增长效率和模型误差，所述模型误差为前计算的第二位置的实际值与理想值的差距；

根据所述梯度、曲率、模型的解的精度增长效率和模型误差，确定第二位置是否为误差表面的鞍点或高噪点；在所述误差表面的第二位置为鞍点或高噪点时，调整下一次单位迭代的批量数，使对模型采用小批量随机梯度下降的方法进行下一次单位迭代时，避免模型的解在误差表面的第三位置为鞍点或高噪点，所述第三位置为模型在第二位置进行一次单位迭代后模型的解在误差表面的位置。通过对模型进行一次训练后，确定模型的收敛状态。根据模型的收敛状态来确定模型当前的解在误差表面是否为鞍点或高噪点，并根据是否为鞍点或高噪点来确定模型在下一次迭代时的批量数。由此实现了，通过调适迭代过程中的批量书来优化模型的解的精度增长效率和逃脱鞍点。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华为技术有限公司，未经华为技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710332393.X/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种高维度深度学习模型的收敛方法和装置有效

专利文献下载