[发明专利]一种基于幂律分布的权重初始化方法有效

申请号：	202110492649.X	申请日：	2021-05-07
公开（公告）号：	CN113255883B	公开（公告）日：	2023-07-25
发明（设计）人：	孙仁诚;邢彤彤;隋毅;孙凤霄;尹来国;陈珊	申请（专利权）人：	青岛大学
主分类号：	G06N3/0464	分类号：	G06N3/0464;G06N3/08;G06F18/2321
代理公司：	青岛高晓专利事务所(普通合伙) 37104	代理人：	张世功
地址：	266000 山***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于分布权重初始化方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明属于人工智能领域，涉及一种优化、提升网络训练过程的权重初始化方法，先建立cifar10数据集的AlexNet和ResNet32网络模型，并计算卷积层权重数量；再生成各个卷积层参数初始化所需要的一种基于幂律分布的分布数据；并在深度学习模型中应用本发明提出的初始化数据进行权重初始化，再将提出的基于幂律分布的权重初始化方法与现有的初始化方法进行对比，本发明与现有技术相比，在权重初始化领域，突破固有的随机分布、均匀分布以及正态分布的数学模型，引入使用幂律分布初始化的概念，并在实验中得到有效的验证。其总体构思巧妙，具有普适性和高效性。可以适用于各种不同的网络模型的结构，同时可以节省模型训练的时间，提升最终的识别精确度。

技术领域：

本发明属于人工智能领域，更进一步涉及到的是该领域中的深度学习网络模型，具体是一种优化、提升网络训练过程的权重初始化方法，可应用于所有的网络模型，并且产生了有益效果。

背景技术：

现下，深度学习是最热的人工智能和机器学习的子领域之一。深度学习是机器学习的一种，而机器学习是实现人工智能的必经路径。深度学习的概念源于人工神经网络的研究，含多个隐藏层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。研究深度学习的动机在于建立模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像，声音和文本等。

随着深度学习的进一步发展，研究者们为了进一步提高网络模型的训练速度和模型精确度，尝试从多个角度提出改进方案，主要是：优化网络结构，迁移学习以及优秀的权重初始化方法。

深度学习的本质其实是训练、优化权重的值，使其达到一个最优解的状态。这其中，需要更新权重的层包括卷积层、BN层和FC层等。在寻找最优解的过程中，权重的初始化就是得到最优解的重要前提。如果权重初始化不合适，则可能会导致模型反向传播失效，陷入局部最优解，导致模型预测效果不理想，甚至使损失函数震荡，模型无法收敛。也就是说，使用不同的权重初始化方法，直接影响到了模型的训练速度和最终精确度。因此，一个优秀的权重初始化方法是深度神经网络领域成功的基石。

现阶段，搭建一个优秀的网络模型通常需要进行大量的实验，并且，非常重要的网络模型参数的设置也往往依赖研究者的经验，并没有很好的理论指导。一个优秀的权重初始化方法，应该具有普适性和高效性。不但可以适用于各种不同的网络模型的结构可以节省模型训练的时间，甚至是可以提升最终的识别精确度。在该领域中有很多权重初始化的方法，常见的随机初始化或固定值初始化。除此之外，还有高斯(正态)分布初始化，均匀分布初始化，截断高斯分布初始化以及主成分洗牌初始化等，该初始化方法与高斯分布初始化相似，但分布形式为截尾分布。目前较为成熟的权值初始化方法：Xavier初始化方法和He初始化方法。Xavier初始化为了增加网络各层之间信息传播的流畅性，遵循了(正向传播)各层激活值的方差和(反向传播)各层状态值的梯度的方差在传播中保持一致的原则，通过均匀分布来进行权重初始化调整。但是，Xavier初始化所使用的激活函数是线性的且激活值关于0对称，不适用于Sigmoid函数和ReLU函数。He初始化在Xavier初始化的基础之上，稍加改变，遵循(正向传播)各层状态值的方差和(反向传播)各层激活值的梯度的方差在传播中保持一致的原则，在与ReLU激活函数的共同作用下，可以达到非常好的收敛效果。然而使用这两种权重初始化方法，网络模型依然需要训练多次，耗时长，并且需要大量训练数据。

针对深度学习领域中关于权重初始化方法的现下情况，本发明拟设计提供一种基于幂律分布的权重初始化方法，本方法通过实验验证发现：本发明中的幂律分布的数据能够有效提高网络模型的收敛速度，节省训练时间，并且有助于提升网络模型的最终精确度。

发明内容：

本发明的目的主要是针对现有技术中的不足和缺陷，提出了一种基于幂律分布的权重初始化方法，该方法有助于提升网络模型训练过程的初始化权重，能够有效优化深度学习模型训练不收敛和训练时间长的问题。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于青岛大学，未经青岛大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110492649.X/2.html，转载请声明来源钻瓜专利网。

上一篇：一种光圆钢筋不圆度的检测方法
下一篇：一种轴向可调式迷宫密封实验的测试装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于幂律分布的权重初始化方法有效

专利文献下载