[发明专利]一种基于Highway和DC的新型双向LSTM神经网络构建方法有效
申请号: | 201910019665.X | 申请日: | 2019-01-09 |
公开(公告)号: | CN109886389B | 公开(公告)日: | 2023-04-25 |
发明(设计)人: | 于舒娟;杨杰;曹健;李冰蕊;张昀 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06N3/0442 | 分类号: | G06N3/0442;G06N3/045;G06N3/084 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 董建林;范青青 |
地址: | 210000 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 highway dc 新型 双向 lstm 神经网络 构建 方法 | ||
本发明公开了一种基于Highway和DC的新型双向LSTM神经网络构建方法,所述方法包括如下步骤:构造双向LSTM神经网络—BiLSTM;B据BiLSTM构造基于DenselyConnection的双向LSTM神经网络—DC‑BiLSTM;向DC‑BiLSTM中引入Highway,得到基于Highway和DC的双向LSTM神经网络,该方法在于继承了Highway和DC克服深度神经网络中的梯度问题的能力,从而相较传统的深层LSTM和DC‑LSTM,在相同深度和相同数据集下,精度更优且收敛速度更快,Highway‑DC还可以使更深层网络(30层)易于训练,且精度尚未饱和。
技术领域
本发明属于自然语言处理及深度神经网络技术领域,具体涉及一种基于Highway和DC的新型双向LSTM神经网络构建方法。
背景技术:
近年来,随着深度学习的兴起,众多深度神经网络架构被提出并应用在人工智能的不同任务中,如语音识别、计算机视觉、自然语言处理等,并相较传统机器学习算法和浅层神经网络在性能上实现了极大的进步,网络深度作为强大的机器学习模式,是深度神经网络取得成功的关键。
循环神经网络具有时序结构,因而具有非常强的保留语句信息的能力,其中有文献提出了堆叠式RNN模型(stackedRNN),通过简单堆叠多层RNN的形式,搭建最早的深度神经网络。在这一模型中,每层RNN的隐状态输出作为下一层RNN的输入。然而,这种堆叠式的深度神经网络被证实存在严重的训练困难的问题,盲目增加神经网络的层数会造成网络难以收敛,且性能饱和甚至退化。其原因在于深度神经网络会使网络使用的误差反向传播时难以优化参数,在网络过深的情况下,经过多次反向传播后,浅层的网络层的梯度会趋于0或者无穷大,从而导致参数难以优化,由此带来所谓的梯度消失/爆炸问题。
为解决这一问题,现有技术中提出了一种长短期记忆(LongShort-TermMemory,LSTM)的RNN变种,LSTM在RNN的基础上,通过引入四个门控单元,很好地解决了RNN中的长时依赖问题,后又在LSTM的基础上,提出了门控单元(GatedRecurrentUnit,GRU),将LSTM中四个门控单元缩减为两个,从而降低了网络的复杂度,更易于实施。尽管如此,随着深度的进一步提升,深度神经网络训练困难的问题依然严峻。
发明内容
本发明所要解决的技术问题是深度神经网络所面临的梯度消失/爆炸问题,提出了基于Highway和DC的双向LSTM神经网络(Highway-DC)。
一种基于Highway和DC的新型双向LSTM神经网络构建方法,所述方法包括如下步骤:
构造双向LSTM神经网络BiLSTM;
根据BiLSTM构造基于DenselyConnection的双向LSTM神经网络DC-BiLSTM;
向DC-BiLSTM中引入Highway,得到基于Highway和DC的双向LSTM神经网络。
优选的,所述BiLSTM的构造方法包括以下步骤:
给定任意长度的输入序列S={w1,w2,…,ws},该序列由w1,w2,…,ws这一串字符组成,s表示输入序列的字符总数,wt(1≤t≤s)表示序列中第t个字符。
单层LSTM的隐状态记为h=[h1,h2,…,hs],
在t时刻(1≤t≤s),序列中第t个字符输入到LSTM中,则t时刻的隐状态由下式得到:
ht=lstm(ht-1,e(wt)) (1);
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910019665.X/2.html,转载请声明来源钻瓜专利网。