[发明专利]基于学习自动机的深度神经网络优化方法在审
申请号: | 201710054653.1 | 申请日: | 2017-01-24 |
公开(公告)号: | CN106951959A | 公开(公告)日: | 2017-07-14 |
发明(设计)人: | 李生红;郭浩楠;马颖华;任栩蝶;汤璐 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04 |
代理公司: | 上海交达专利事务所31201 | 代理人: | 王毓理,王锡麟 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 学习 自动机 深度 神经网络 优化 方法 | ||
技术领域
本发明涉及的是一种信息处理领域的技术,具体是一种基于学习自动机(Learning Automata,LA)的深度神经网络中去除弱连接的方法。
背景技术
神经网络是一种传统的机器学习算法,可以实现输入到输出的非线性映射,能应用于特征变换、分类、识别等任务中。由于其具有强大的模型表达能力,在模式识别、人工智能等领域得到了广泛应用。神经网络模型通常包含输入层、输出层和隐藏层,每层由特定个数的神经元组成,每个神经元可描述为y=f(W*x+b),其中:x代表输入向量;y代表输出值;权值向量W和偏置b为可训练的参数,其集合可用θ表示;f为非线性的激活函数(通常采用sigmoid函数或ReLU)。因此神经网络模型的每一层可描述为对输入进行加权求和,并通过非线性变换得到输出值。对于特定的训练样本,通常采用损失函数来衡量神经网络输出值与期望值之间的偏差,对模型的训练即求解θ,使得在训练样本上最小化损失函数。训练方法通常采用反向传播算法计算梯度,并采用梯度下降法迭代更新参数θ(权重和偏置值),直至得到最优的θ值。
与传统的神经网络相比,深层神经网络模型包含更多的隐藏层,每一层的输出直接作为下一层的输入。其每个隐藏层都对上一层的输出进行特征变换,得到更加抽象的特征,因此深层神经网络具有强大的特征表达能力。而且通过端对端的训练,深层神经网络可以实现完全自主学习特征,避免了人工设计特征的繁琐和盲目性。长期以来由于梯度弥散等理论问题以及硬件计算能力的限制,包含多个隐藏层的神经网络的训练一直是一个难以解决的问题。从2006年起,随着深度学习技术的兴起,深层神经网络的训练在理论上得到了一定程度的解决。计算机计算能力的提升特别是GPU加速的使用,以及更多的训练样本使得深层神经网络的训练成为可能,并且在计算机视觉、语音识别、自然语言处理等领域都取得了显著效果。
然而,由于深度神经网络中包含大量参数,一旦网络设置过大,很容易陷入过拟合,使得测试集上的效果反而会变差。而网络大小的设置往往依靠经验及大量实验进行尝试,具有一定的盲目性。目前已经有一些防止网络过拟合的方法,如:在损失函数中加入正则项,以惩罚较大的权重值;设置验证集以监测泛化误差,当其不再减小时即停止训练;在每次迭代时随机丢掉一部分神经元等。
发明内容
本发明针对深度神经网络冗余参数过多,容易陷入过拟合的问题,提出一种基于学习自动机的深度神经网络弱连接的去除方法,在传统的梯度下降迭代过程中引入LA寻找连接中的弱连接,去掉冗余连接以减少网络参数,降低网络计算量,提高在测试样本上的分类精度,使其具有更强的防止过拟合的能力。
本发明是通过以下技术方案实现的:
本发明涉及一种基于学习自动机的深度神经网络优化方法,在深度神经网络的训练阶段,从全连接的初始网络结构出发,在通过梯度下降迭代更新参数的过程中不断找到网络中的弱连接并将其去除,从而得到更为稀疏连接、具有更小的泛化误差的网络结构,以便用于对测试样本进行更高精度的图像分类。
所述的弱连接,通过LA在训练过程中不断与神经网络交互而进行判定,具体是指:对神经网络中的每一个连接,分别分配一个LA对当前连接的强弱进行判定,即:采用具有两个行为α1和α2的FSSA模型,其中:行为α1对应判定当前连接为强连接,α2对应判定当前连接为弱连接;每个行为对应N个内部状态,即LA共有2N个状态,记为L2N,N,其中:N代表记忆深度;该学习自动机的输出函数为:当时刻t处于状态q(t)=qi,1≤i≤N,则输出α1,即判定当前连接为强连接;当处于状态q(t)=qi,N+1≤i≤2N,则输出α2,即判定当前连接为弱连接。
所述的与神经网络交互是指:当当前连接权重大于阈值时,对当前LA进行奖励,否则,对LA进行惩罚:在没有任何先验知识的情况的初始时刻下,LA处于状态q1;经过一次迭代过程中,当LA得到奖励,则向判定为强连接的状态移动,即从当前状态qi转移到qi-1,当i=1则保持原状态;当LA得到惩罚,则向判定为弱连接的状态移动,即从当前状态qi转移到qi+1,当i=2N则保持原状态不变。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710054653.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新型高效节能混铁车罐体
- 下一篇:一种钢水包结构