[发明专利]一种求解提升邻近算子机的神经网络优化方法有效

申请号：	201811203464.7	申请日：	2018-10-16
公开（公告）号：	CN111062474B	公开（公告）日：	2023-04-28
发明（设计）人：	林宙辰;李嘉;方聪	申请（专利权）人：	北京大学
主分类号：	G06N3/08	分类号：	G06N3/08
代理公司：	北京万象新悦知识产权代理有限公司 11360	代理人：	黄凤茹
地址：	100871***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种求解提升邻近算子神经网络优化方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公布了一种求解提升邻近算子机的神经网络优化方法，涉及深度学习神经网络优化技术领域；在前向神经网络的训练中，通过采用块坐标下降方法求解提升邻近算子机LPOM模型，LPOM模型中的每个子问题均具收敛性，可并行更新神经网络每层的权值和网络激活，且不占用额外内存空间。采用本发明技术方案，在使用相对较少存储的情况下，能够提高神经网络训练的并行性、适用性和训练效果。

技术领域

本发明涉及深度学习神经网络优化技术领域，尤其涉及一种通过求解提升邻近算子机(lifted proximal operator machine,LPOM)进行神经网络优化的方法。

背景技术

前向深度神经网络是由层次结构的全连接层构成，并且不存在反馈连接。最近随着硬件和数据集规模的发展，前向深度神经网络在许多任务上成为标准。例如，图像识别[16]，语音识别[12]，自然语言理解[6]和作为围棋学习系统的重要组成部分[22]。

近几十年以来，优化前向神经网络的目标通常是一个高度非凸且关于网络权值嵌套的函数。优化前向神经网络的主要方法是随机梯度下降法(stochastic gradientdescent,SGD)[21].它的有效性通过其在各种实际应用中的成功得到验证。近年来，各种随机梯度下降的变种被先后提出。它们使用自适应的学习效率或动量项，如Nesterov动量[23],AdaGrad[8],RMSProp[7]和Adam[15]。SGD及其变种使用较少的训练样本来估计梯度，使得每次迭代的计算量较小。此外，由于估计的梯度含有噪声，这有利于逃出鞍点[9]。然而，这些方法也存在一些缺点。主要的问题是梯度的量级随着网络层数指数级减小或增大造成梯度消失或爆炸。这种现象会造成收敛变慢或不稳定，这在较深的神经网络中尤为严重。该缺点可以通过使用非饱和激活函数如线性整流单元(ReLU)和修正的网络结构如ResNet[11]进行缓和。然而，根本问题依然存在[24]。此外，它们无法直接处理不可微激活函数(如二值神经网络[13])，不同层的权值也不能并行更新。

SGD的缺点激发了研究训练前向神经网络的新方法。最近，训练前向神经网络被形式化为一个约束优化问题。它引入了网络激活为辅助变量，网络结构则是通过逐层的约束来保证[3]。这种做法将嵌套函数的依赖关系断裂为等式约束，于是可以使用许多标准的优化算法进行求解。属于这一类型方法的主要区别在于如何处理等式约束。文献[4]通过二次惩罚项来近似等式约束，并交替优化网络权值和激活。文献[25]在每层又多引入一个辅助变量。他们也使用二次惩罚项来近似等式约束。然而，这两种方法都是近似等式约束或包含较多的辅助变量。受交错方向法[16]的启发,文献[24]和文献[27]使用增广拉格朗日法来获得严格的等式约束。然而，这两种方法都涉及到拉格朗日乘子和非线性约束，故而需要更多的内存，优化也更为困难。根据ReLU激活函数等价于一个简单的约束凸优化问题，文献[26]将非线性约束松弛为惩罚项，它刻画了网络结构和ReLU激活函数。于是，非线性约束不复存在。然而，该方法局限于ReLU激活函数，无法用于其他激活函数。文献[2]采用了类似的思路，但是讨论了多种类型的单增激活函数。然而，他们更新权值和激活的算法仍然局限于ReLU函数。他们的方法只能用于初始化SGD，无法超越SGD的性能。专利[1]提出一个近似前向神经网络的新模型，称为提升邻近算子机(lifted proximal operator machine,LPOM)。LPOM把激活函数重写为与之等价的近邻算子，并将该邻近算子作为惩罚项添加到目标函数中来近似前向神经网络。然而，专利[1]中给出的求解算法没有利用它关于每层权值和激活是块多凸的这一特性。使用交错方向法更新网络激活时引入了多个辅助变量。使用梯度下降法更新权值时选择合适的学习效率非常困难。

引用文献：

[1]一种提升邻近算子机神经网络优化方法.201711156691.4

[2]Askari,A.；Negiar,G.；Sambharya,R.；and Ghaoui,L.E.2018.Lifted neuralnetworks.arXiv preprint arXiv:1805.01532.

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京大学，未经北京大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811203464.7/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种求解提升邻近算子机的神经网络优化方法有效

专利文献下载