[发明专利]一种基于LRU的卷积神经网络的训练方法在审
申请号: | 201910513524.3 | 申请日: | 2019-06-14 |
公开(公告)号: | CN110197261A | 公开(公告)日: | 2019-09-03 |
发明(设计)人: | 丁贵广;丁霄汉 | 申请(专利权)人: | 清华大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 北京八月瓜知识产权代理有限公司 11543 | 代理人: | 马东瑞 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于LRU的卷积神经网络的训练方法,属于卷积神经网络技术领域,一种基于LRU的卷积神经网络的训练方法,包括以下步骤:S1:使用LRU构建卷积神经网络,给定一个基本网络,通过将基本网络中的每个线性块替换为一个LRU,构造一个扩展网络,S2:将扩展网络训练至收敛,S3:对得到的扩展网络等效转换为基本网络的结构,将每一个LRU转换为卷积核和偏置项的等效卷积层,对于每个输出通道,构造卷积核和偏置项,验证转换前后LRU是等价的。本发明的训练方法采用LRU取代任何CNN架构中的每个正常卷积层,进行等效替换,将其用在各种新的CNN架构上,并与各种新的正则化方法和优化方法结合使用,可以大幅提高CNN的拟合能力。 | ||
搜索关键词: | 卷积神经网络 基本网络 扩展网络 卷积核 卷积 偏置 架构 等效替换 等效转换 输出通道 正则化 转换 等价 构建 拟合 收敛 替换 验证 优化 | ||
【主权项】:
1.一种基于LRU的卷积神经网络的训练方法,其特征在于,包括以下步骤:S1:使用LRU构建卷积神经网络,给定一个基本网络,通过将基本网络中的每个线性块替换为一个LRU,构造一个扩展网络,训练时的每个LRU包括两个或多个并行的具有相同结构和不同参数的线性块,且线性块的输入相同,每个线性块为一个线性分支,所有线性分支的输出的算术平均即为LRU的输出;S2:将扩展网络训练至收敛,在每个LRU中,每个线性分支的卷积核服从同一分布随机初始化,其他训练技术与方法与训练普通CNN相同,卷积层的训练目的是学到从输入到输出的最优映射,由于卷积层初始化的随机性和训练过程的随机性,对于单个线性块,最优映射在该线性块能够学到的空间之外,若将多个随机初始化的线性块的输出的算术平均作为LRU的输入,能够降低陷入局部最优的几率,从而LRU可以学到更好的映射,提高CNN的表征能力,进而有效的提升普通网络的精度;S3:对得到的扩展网络等效转换为基本网络的结构,将每一个LRU转换为卷积核和偏置项的等效卷积层,对于每个输出通道,构造卷积核和偏置项,验证转换前后LRU是等价的;训练完成后,构建一个与基本网络结构相同的CNN,然后用扩展网络中的卷积核和偏置项对构造的基本网络中的对应层进行初始化,采用LRU替换全连接层,并以类似的方式转换为普通的全连接层,最终得到的网络结构和基本网络相同,将LRU与正则化方法结合使用,从而能够大幅提高网络的泛化能力,同时,该方法对于那些不能将训练数据拟合得非常好的网络,使用LRU可以在同样的部署时计算量的前提下提高网络的精度。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910513524.3/,转载请声明来源钻瓜专利网。
- 上一篇:一种数据处理方法及装置
- 下一篇:用于LSTM网络的硬件加速器