[发明专利]一种基于SELU及FW机制的神经网络模型及学习方法在审
申请号: | 201910475334.7 | 申请日: | 2019-06-03 |
公开(公告)号: | CN110288080A | 公开(公告)日: | 2019-09-27 |
发明(设计)人: | 王军茹;卢继华;易军凯;李梦泽;谷博宇 | 申请(专利权)人: | 北京信息科技大学;北京理工大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 北京理工正阳知识产权代理事务所(普通合伙) 11639 | 代理人: | 王民盛 |
地址: | 100192 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 神经网络模型 递归神经网络 测试参数 网络模型 隐藏层 权重 学习 读取 参数输入模块 机器学习技术 结果评估模块 准确度 激活函数 计算网络 记忆信息 模型参数 训练参数 样本维度 初始化 归一化 更新 收敛 样本 储存 输出 网络 | ||
1.一种基于SELU及FW机制的神经网络模型,其特征在于:包括参数输入模块、递归神经网络模块以及结果评估模块;
其中,递归神经网络模块又包括初始化模块、样本输入模块、快速权重更新模块、慢速权重更新模块以及参数优化模块;快速权重更新模块又包括层正则化处理模块;
其中,参数输入模块设定输入参数及FW模型参数;输入参数包括输入维度以及输入类别;FW模型参数包括Epoch数、batch大小、隐藏单元数、衰减系数、学习率、时间步进s以及最大梯度规范值;
初始化模块将训练参数及测试参数初始化为0;
其中,训练参数包括Epoch训练损失、Epoch训练准确度以及Epoch训练梯度规范值;测试参数包括Epoch评估损失以及Epoch评估准确度;
此外,初始化模块还包括对路径、数据以及存储的Epoch数进行初始化;
样本输入模块依据参数输入模块输入的输入维度、输入类别以及Epoch数量输入训练及评估数据;
输入的训练及评估数据在快速权重更新模块中被处理,处理过程中的两个重要环节1)激活函数选择SELU函数;2)要进行层正则化处理,具体在层正则化处理模块中实现;经s+1次快速权重更新后的数据进入慢速权重更新模块,慢速权重更新模块的输出传入结果评估模块;
在结果评估模块判断是训练过程还是评估过程,若是训练过程,则:输出Epoch训练损失、Epoch训练准确度、Epoch更新数据以及Epoch训练梯度规范值;若是评估过程,则:输出Epoch评估损失以及Epoch评估准确度;
结果评估模块将需要优化的参数传给参数优化模块,参数优化模块会将相应数据传输给快速权重更新模块以及慢速权重更新模块;
所述基于SELU及FW机制的神经网络模型中各模块的连接关系如下:参数输入模块与递归神经网络模块相连,初始化模块以及样本输入模块与快速权重更新模块相连;样本输入模块与快速权重更新模块相连,快速权重更新模块与慢速权重更新模块相连;慢速权重更新模块与样本输入模块、结果评估模块以及参数优化模块相连,参数优化模块与慢速权重更新模块、快速权重更新模块以及结果评估模块相连。
2.权利要求1所述的一种基于SELU及FW机制的神经网络模型依托的学习方法,其特征在于:包括如下步骤:
步骤1、参数输入模块设定输入参数及FW模型参数;
步骤2、初始化模块初始化训练参数及测试参数;
其中,训练参数包括Epoch训练损失、Epoch训练准确度、Epoch更新数据以及Epoch训练梯度规范值;测试参数包括Epoch评估损失以及Epoch评估准确度;
步骤3、递归神经网络模块中的样本输入模块读取一批样本;
步骤4、递归神经网络模块中的快速权重更新模块选择样本维度;
步骤5、递归神经网络模块中的快速权重更新模块基于输入层权重、标准权重计算起始隐藏层状态;
步骤6、递归神经网络模块中的快速权重更新模块计算快速权重;
步骤7、递归神经网络模块中的快速权重更新模块计算隐藏层状态并更新s次隐藏层状态;
步骤8、递归神经网络模块中的慢速权重更新模块计算网络的归一化输出;
其中,计算网络的归一化输出通过Softmax实现;
步骤9、慢速权重模块基于步骤8计算出的归一化输出计算损失;
步骤10、慢速权重模块判断是否达到最后一个Epoch,若达到最后一个Epoch,则结束本方法;如果没有达到,则更新隐藏层状态以及训练参数或测试参数,跳至步骤3。
3.根据权利要求2所述的一种基于SELU及FW机制的神经网络模型依托的学习方法,其特征在于:步骤5中起始隐藏层状态,具体通过公式(1)计算:
h0=f(LN(Wx*x+Wh*h)) (1)
其中,输入层权重记为Wx、标准权重记为Wh;h0为起始隐藏层状态,LN为层正则化函数;f为激活函数;Wh是RNN网络中隐藏层向下一个时间步进传播的权重;Wx是输入层到隐藏层传播的权重;x为输入层数据;h为当前隐藏层状态对应的数据,简称隐藏层状态;激活函数f为SELU函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学;北京理工大学,未经北京信息科技大学;北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910475334.7/1.html,转载请声明来源钻瓜专利网。