[发明专利]一种单隐层ReLU神经网络局部极小值的求解方法在审
申请号: | 202110187212.5 | 申请日: | 2021-02-10 |
公开(公告)号: | CN112926727A | 公开(公告)日: | 2021-06-08 |
发明(设计)人: | 刘波;孙雄飞 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 单隐层 relu 神经网络 局部 极小 求解 方法 | ||
一种单隐层ReLU神经网络局部极小值求解方法,属于深度学习理论领域,用于解决ReLU神经网络优化的不确定性的问题,包括构建单隐层ReLU神经网络;利用输入样本和ReLU激活函数的特性进行权值空间区域度划分,并计算每个区域权值和每个样本的点积是否大于0;根据每个区域的权值和样本点积的情况计算每个区域的局部极小值;根据局部极小值的解的情况判断局部极小值的真实性,对于唯一的局部极小值可以直接判断是否与初始化定义区域内的任何点都在每个输入样本的同一侧,对于连续的解可以判断这个连续的解是否在它所定义的区间内,判定的方法是求半平面的交是否为空,对于半平面求交的问题可以转化成凸包问题方便求解。
技术领域
本发明属于深度学习领域,具体来说是一种单隐层ReLU神经网络局部极小值的求解方法。
背景技术
深度神经网络在许多机器学习任务中取得了巨大的成功,尽管最近有很多的理论贡献来解释他们的成功,但是这在很大程度上还是一个未解之谜,特别是深度神经网络损失函数具有高度的非凸性的情况下,在实践中基于局部搜索的优化方法如梯度下降法却仍然能够取得成功。这说明深层神经网络的损失函数形状必然存在某些有利于梯度下降的特征。因此,了解损失函数是否在某区域存在局部极小值,从而探究深度神经网络的损失函数形状,将大大有助于我们发现这些特征。
而且,基于梯度下降的反向传播算法已经是现在最常用的训练深度神经网络模型的算法,但是在训练模型的过程中,常常会遇到模型已经收敛损失函数的值和模型预测的准确率却根本不符合期望,这种情况说明梯度下降算法遇到了稳定点即梯度为零的点,在稳定点上梯度下降算法是无法继续运行的,这样的话,模型也就会在这个稳定点处收敛,而稳定点有可能是全局极小值点、局部极小值点、或者是鞍点,若模型收敛的点为局部极小值点或者鞍点,肯定是达不到最优的效果,一般遇到这种情况都会选择调整超参数然后重新训练,这样的做法有两大缺点,第一,重新进行训练同样具有不确定性,还是有可能收敛于局部极小值点,第二,重新进行训练会极大的浪费时间和资源。
为了解决这个问题,本专利研究了一种单隐层ReLU神经网络局部极小值的求解方法。我们借鉴了计算几何的思想成功的实现了有效的权值空间区域划分,然后提出一种有效的计算每个区域的局部极小值的算法,并且实现了局部极小值是否真实存在的判定。在训练过程中,如果遇到了模型收敛了但模型的效果不符合预期的情况,可以使用本方法对当前权值所在的区域的局部极小值进行计算并验证是否为真实局部极小值,然后更改某些权值跳出当前区域,就能成功的逃逸局部极小值,从而得到全局最优解。甚至对于不存在局部极小值的模型,可以直接通过本算法计算出局部极小值的位置和大小,这个局部极小值也就是全局极小值,可以直接得到最优的模型,因此,本发明提出的算法可以极大的提高深度神经网络模型训练的确定性和效率,并且为新的优化方向提供了思路,对深度神经网络模型的优化具有重要的意义。
发明内容
本发明提出了一种单隐层ReLU神经网络局部极小值的求解方法,本发明通过输入样本和ReLU函数的特性对权值空间进行区域划分,然后对每个区域的局部极小值进行计算并验证此局部极小值是否真实存在,通过求解每个区域的局部极小值来直接获取最优的解和最优模型的参数。
本发明提出的方法具体技术方案如下:
1、网络的构建:本发明使用的网络是单隐层ReLU神经网络,具有K个具有ReLU激活的隐藏神经元,d个输入神经元和2个输出神经元,损失函数采用的是平方损失函数,所以我们这个单隐层ReLU神经网络的损失函数为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110187212.5/2.html,转载请声明来源钻瓜专利网。