[发明专利]一种神经网络初始化方法、装置、可读介质及存储控制器在审
申请号: | 201710756629.2 | 申请日: | 2017-08-29 |
公开(公告)号: | CN107506829A | 公开(公告)日: | 2017-12-22 |
发明(设计)人: | 张旭;段成德;于治楼 | 申请(专利权)人: | 济南浪潮高新科技投资发展有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08 |
代理公司: | 济南信达专利事务所有限公司37100 | 代理人: | 李世喆 |
地址: | 250100 山东省济南市*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 神经网络 初始化 方法 装置 可读 介质 存储 控制器 | ||
技术领域
本发明涉及计算机技术领域,特别涉及一种神经网络初始化方法、装置、可读介质及存储控制器。
背景技术
随着计算机技术的发展,神经网络已经语音识别、文本处理和视觉目标识别等多个领域表现出强大的能力。神经网络的特征的层数越多,训练好的神经网络的识别性能越强。
在传统神经网络的训练时,通常有多个训练过程同时进行,每个训练过程采用随机初始化的方式对神经网络的权重值进行初始化。传统神经网络的权重值一般为一定取值范围内的浮点数,随机初始化的方式即从该取值范围内的任一浮点数开始进行训练。
在该训练过程中,大量浮点数以及多个训练过程使得神经网络的训练需要较长的时间。
发明内容
本发明实施例提供了一种神经网络初始化方法、装置、可读介质及存储控制器,能缩短神经网络的训练时间。
第一方面,本发明实施例提供了一种神经网络初始化方法,包括:
根据待训练神经网络的结构以及权重值数量,构建离散神经网络,并确定所述离散神经网络对应的权重值的取值范围;
在确定出的所述取值范围内,确定当前离散训练值;
利用所述离散神经网络,确定与所述当前离散训练值对应的梯度值;
确定所述梯度值是否不大于预设第一阈值;
如果是,根据所述当前离散训练值,确定全局最优离散权重参数;
将确定出的所述最优离散权重参数赋值给所述待训练神经网络,利用所述全局最优离散权重参数,对所述待训练神经网络进行训练。
优选地,
当确定出所述当前离散训练值对应的梯度值大于预设第一阈值时,进一步包括:
根据所述离散神经网络的梯度方向,在所述取值范围中,确定临近离散训练值;
将所述临近离散训练值作为当前离散训练值,执行所述利用所述离散神经网络,确定与所述当前离散训练值对应的梯度值。
优选地,
所述根据所述当前离散训练值,确定全局最优离散权重参数,包括:
利用所述离散神经网络,确定与所述当前离散训练值对应的损失值;
确定所述损失值是否小于预设第二阈值,如果是,将所述当前离散训练值作为所述全局最优离散权重参数。
优选地,
所述在确定出的所述取值范围内,确定当前离散训练值,包括:
确定离散训练值的个数;
根据所述离散训练值的个数,将所述取值范围划分为至少两个取值域;其中,每一个所述取值域对应一个所述离散训练值;
从各个所述离散训练值中,选择所述当前离散训练值。
第二方面,本发明实施例提供了一种神经网络初始化装置,包括:构建单元、确定单元和训练单元;其中,
所述构建单元,用于根据待训练神经网络的结构以及权重值数量,构建离散神经网络,并确定所述离散神经网络对应的权重值的取值范围;
所述确定单元,用于在确定出的所述取值范围内,确定当前离散训练值;利用所述离散神经网络,确定与所述当前离散训练值对应的梯度值;确定所述梯度值是否不大于预设第一阈值;如果是,根据所述当前离散训练值,确定全局最优离散权重参数;
所述训练单元,用于将确定出的所述最优离散权重参数赋值给所述待训练神经网络,利用所述全局最优离散权重参数,对所述待训练神经网络进行训练。
优选地,
所述确定单元,进一步用于当确定出所述当前离散训练值对应的梯度值大于预设第一阈值时,根据所述离散神经网络的梯度方向,在所述取值范围中,确定临近离散训练值;将所述临近离散训练值作为当前离散训练值,执行所述利用所述离散神经网络,确定与所述当前离散训练值对应的梯度值。
优选地,
所述确定单元,用于利用所述离散神经网络,确定与所述当前离散训练值对应的损失值;确定所述损失值是否小于预设第二阈值,如果是,将所述当前离散训练值作为所述全局最优离散权重参数。
优选地,
所述确定单元,用于确定离散训练值的个数;根据所述离散训练值的个数,将所述取值范围划分为至少两个取值域;其中,每一个所述取值域对应一个所述离散训练值;从各个所述离散训练值中,选择所述当前离散训练值。
第三方面,本发明实施例提供了一种可读介质,包括执行指令,当存储控制器的处理器执行所述执行指令时,所述存储控制器执行本发明上述任一实施例提供的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于济南浪潮高新科技投资发展有限公司,未经济南浪潮高新科技投资发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710756629.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多阀值多函数定向神经元的设计方法
- 下一篇:爆破参数确定方法及系统