[发明专利]一种基于神经网络的建模方法及装置有效
申请号: | 202110099795.6 | 申请日: | 2021-01-25 |
公开(公告)号: | CN112906291B | 公开(公告)日: | 2023-05-19 |
发明(设计)人: | 张本龚;曹文洁;时亚洲;刘杰;张承;陈俊超;原莉;熊珍珍;王婷 | 申请(专利权)人: | 武汉纺织大学 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06N3/044;G06N3/0442 |
代理公司: | 上海硕力知识产权代理事务所(普通合伙) 31251 | 代理人: | 童素珠 |
地址: | 430200 *** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 神经网络 建模 方法 装置 | ||
本发明提供了一种基于神经网络的建模方法及装置,包括:至少有一个隐藏层采用循环神经网络RNN或长短期记忆网络LSTM或门控循环单元GRU的结构;按照预设规则将所有时刻分为增强时刻和非增强时刻;若当前时刻为非增强时刻,则根据当前时刻的前一时刻的状态,得到隐藏层在当前时刻的状态;若当前时刻为增强时刻,则根据当前时刻的前一时刻和前L个时刻的状态,L为第二预设数目,得到隐藏层在当前时刻的状态。本发明通过优化传统RNN网络的结构,改善了基于循环神经网络的模型的记忆能力不足和梯度反向传播困难等问题,提高了模型预测的准确性。
技术领域
本发明涉及神经网络技术领域,尤指一种基于神经网络的建模方法及装置。
背景技术
循环神经网络(Recurrent Neural Network,RNN),相对全连接神经网络和卷积神经网络,能更好地提取时间序列前后之间的关系而得到广泛应用。
如图9所示,一个简单的循环神经网络(图9的左边部分)由输入层、一个隐藏层和一个输出层组成:x是一个向量,表示输入层的值;h是一个向量,表示隐藏层的值(或状态);o也是一个向量,表示输出层的值;U是输入层到隐藏层的权重矩阵,V是隐藏层到输出层的权重矩阵。
把图8的左边部分展开得到右边部分,可以看出隐藏层是循环层,网络在t时刻接收到输入xt之后,隐藏层的值ht不仅取决于xt,还取决于上一次隐藏层的值ht-1。可以用下面的公式来表示循环神经网络的计算方法:
其中,ht是隐藏层在t时刻的值,f是激活函数,W是隐藏层上一次的值到下一次的值的权重矩阵,g是激活函数,ot是输出层在t时刻的值。
但是RNN网络在梯度反向传播中存在梯度消失问题。
权重矩阵W最终的梯度是各个时刻的梯度之和。如图10所示,从t-3时刻开始,梯度几乎减少到0(即梯度消失)。那么,从这个时刻开始再往前走,得到的梯度(几乎为零)就不会对最终的梯度值有任何贡献,这相当于无论t-3时刻之前的网络状态h是什么,在训练中都不会对权重数组W的更新产生影响,也就是网络事实上已经忽略了t-3时刻之前的状态。这就是RNN无法处理长距离依赖的原因。
为了缓解上述问题,现有技术中对RNN进行改进,得到循环神经网络的变形结构,如长短期记忆网络(Long Short Term MemoryNetwork,LSTM)和门控循环单元(GatedRecurrent Unit,GRU)。但是RNN及其改进仍然存在记忆能力不足和梯度反向传播困难等问题,这些问题将制约这些算法的应用。
发明内容
本发明的目的是提供一种基于神经网络的建模方法及装置,用于解决现有技术中存在的循环神经网络记忆能力不足和梯度反向传播困难的问题。
本发明提供的技术方案如下:
一种基于神经网络的建模方法,包括:至少有一个隐藏层采用循环神经网络RNN或长短期记忆网络LSTM或门控循环单元GRU的结构;按照预设规则将所有时刻分为增强时刻和非增强时刻;若当前时刻为非增强时刻,则根据当前时刻的前一时刻的状态,得到所述隐藏层在所述当前时刻的状态;若当前时刻为增强时刻,则根据当前时刻的前一时刻和前L个时刻的状态,L为第二预设数目,得到所述隐藏层在所述当前时刻的状态。
进一步地,所述的按照预设规则将所有时刻分为增强时刻和非增强时刻包括:以第一预设数目为周期设置增强时刻。
进一步地,所述第一预设数目等于所述第二预设数目。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉纺织大学,未经武汉纺织大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110099795.6/2.html,转载请声明来源钻瓜专利网。