[发明专利]一种单隐层ReLU神经网络局部极小值的求解方法在审
申请号: | 202110187212.5 | 申请日: | 2021-02-10 |
公开(公告)号: | CN112926727A | 公开(公告)日: | 2021-06-08 |
发明(设计)人: | 刘波;孙雄飞 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 单隐层 relu 神经网络 局部 极小 求解 方法 | ||
1.一种单隐层ReLU神经网络局部极小值的求解方法,其特征在于:
1)、网络的构建:使用的网络是单隐层ReLU神经网络,具有K个具有ReLU激活的隐藏神经元,d个输入神经元和2个输出神经元,损失函数采用的是平方损失函数,所以这个单隐层ReLU神经网络的损失函数为:
其中L(z,w)为整个模型的损失函数,z={zk,k∈{1,2,3,…,K}},w={wk,k∈{1,2,3,…K}},[wj·xi]+=max(0,wj·xi)为ReLU函数,zj为隐藏层到输出层之间的权值,j∈{1,2,3,…,K},wi为输入层到隐藏层之间的权值,i∈{1,2,3,…,K},N为输入样本个数,K为神经元个数,xi为第i个样本,yi为第i个样本的标签;
2)、权值空间区域划分:将权值空间划分为若干个凸的子单元,首先计算出每个子单元中Iij的值,Iij的值由wj·xi决定,若wj·xi>0,Iij=1否则Iij=0,由于每个子单元都是凸的,在每个子单元中Iij的值都是恒定的,不会随着wj在本区域内的移动而改变,因此损失函数在每个子区域内是可微的;但是当wj从本区域移动到另一个相邻的区域内时,Iij的值将不再是恒定的;由于每个子单元都是凸的,所以损失函数在每个子单元内的局部极小值就是在这个子单元内的全局极小值;随机选取某个子单元内的wj的值用来计算Iij的值,这个值代表此子单元的Iij的值;
3)、局部极小值位置的计算:采用的损失函数是平方损失,令Rj=zjwj,那么对神经网络的损失函数来说,各个区域内的局部极小值的解为:
其中R*为损失函数在本区域的局部极小值解,Iij的值由wj·xi决定,若wj·xi>0,Iij=1否则Iij=0,wj为输入层到隐层的第j个权值,Rj=zj·wj,zj为隐层神经元到输出神经元之间的第j个权值,xi为第i个样本,yi为第i个样本的标签;
其中重写为:
AR=y,其中
该问题的一般解用A矩阵的Moore-Penrose逆表示:
*=A+y+(I-A+A)c
其中R*表示损失函数局部极小值的解,A+表示A矩阵的Moore-Penrose逆,c∈RKd是一个任意的向量,其中R为实数集合,K表示的是隐藏神经元的个数,d表示的是输入神经元的个数,I为单位矩阵,根据A矩阵的不同情况,解R*可能是唯一的也有可能是一段连续的无限个解,对于这两种情况在步骤4中都将给出验证是否为真实局部极小值的方法;
4)、局部极小值真实性的验证:由于ReLU激活函数的特性,导致第3步计算出来的局部极小值有可能不会落在初始化的子区域内,这种局部极小值是虚假的局部极小值,没有实际意义,因此需要验证步骤3所求得的局部极小值是否为真正的局部极小值,验证局部极小值是否真实的的关键就是要验证所求得的局部极小值是否在它初始化定义的区间内,对于唯一的局部极小值解来说,若解存在,则w*应该位于其初始化定义的区域内,其中w*为模型的输入层到隐层神经元的权值的解,即w*与它初始化定义区域内的任何点都在每个输入样本的同一侧,只需判断是否成立即可,其中i∈{1,2,3,…N},j∈{1,2,3,…,K},为本区域的局部极小值第j个权值的解,xi为第i个样本,Iij的值由wj·xi决定,若wj·xi>0,Iij=1否则Iij=0,对于R*是连续的情况,其中R*为损失函数局部极小值的解,需要判断这些连续的解是否在其定义划分区域内,将代入到上式中得到:
其中第i个样本向量的转置,A+为A矩阵的Moore-Penrose逆矩阵,y为样本的标签,I为单位矩阵,c∈RKd是一个任意的向量;这个式子是关于c的一些半平面,若所有这些半平面的交集若为非空,则代表指定划分区域中的可微局部极小值存在;反之,如果所有半平面的交集若为空,则指定划分区域中的可微局部极小值不存在;
5)、使用凸包验证无限解的局部极小值的真实性:
点集的上凸包与对偶平面中的直线集的下包络是完全相对应的,半平面求交集的问题对偶转换成凸包问题进行求解。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110187212.5/1.html,转载请声明来源钻瓜专利网。