[发明专利]一种基于Highway和DC的新型双向LSTM神经网络构建方法有效
申请号: | 201910019665.X | 申请日: | 2019-01-09 |
公开(公告)号: | CN109886389B | 公开(公告)日: | 2023-04-25 |
发明(设计)人: | 于舒娟;杨杰;曹健;李冰蕊;张昀 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06N3/0442 | 分类号: | G06N3/0442;G06N3/045;G06N3/084 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 董建林;范青青 |
地址: | 210000 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 highway dc 新型 双向 lstm 神经网络 构建 方法 | ||
1.一种文本分类方法,其特征在于,将待分类的文本数据输入至预构建并训练好的基于Highway和DC的双向LSTM神经网络中,获取文本分类结果;
其中,所述基于Highway和DC的双向LSTM神经网络的构建方法包括:
构造双向LSTM神经网络BiLSTM;
根据BiLSTM构造基于DenselyConnection的双向LSTM神经网络DC-BiLSTM;
向DC-BiLSTM中引入Highway,得到基于Highway和DC的双向LSTM神经网络;
所述BiLSTM的构造方法包括以下步骤:
给定任意长度的输入序列S={w1,w2,···,ws},
单层LSTM的隐状态记为h=[h1,h2,···,hs],
在t时刻1≤t≤s,序列中第t个字符输入到LSTM中,则t时刻的隐状态由下式得到:
ht=lstm(ht-1,e(wt)) (1)
上式中,w1,w2,…,ws这一串字符组成S序列,s表示输入序列的字符总数,wt表示输入序列S中的第t个字符,1≤t≤s,符号lstm表示LSTM单元,ws表示最后一个输入字符,hs表示最后一个字符所对应的隐状态,特别地,h0=0;
定义序列第l层BiLSTM在t时刻的隐状态:
将前向隐状态和后向隐状态进行迭代:
前向LSTM隐状态:
后向LSTM隐状态:
由下式迭代得到:
特别地,分别表示第l层前向和后向LSTM在s时刻所得的隐状态,e(wt)∈Rm表示wt经Word-Embedding后的结果,ht-1∈Rd表示LSTM单元在t-1时刻的隐状态,e(wt)与ht-1为LSTM单元在t时刻的输入项;
所述DC-BiLSTM的构造方法包括以下步骤:
在DC-BiLSTM网络中,若对t时刻第l层的输入记为itl,则t时刻第一层网络的输入记为:
输出记为:
从第二层开始,每一层神经网络的输入都是级联所有先前层输出的结果,有:
式中,表示t时刻第k层神经网络的输出,k=0,1,2,...l-1,特别地,
则t时刻第l层的前向隐状态输出记为:
后向隐状态输出记为:
所述Highway的引入方法包括以下步骤:
在t时刻,Highway的输出记为:
yt=ht⊙T(wT,xt)+xt⊙(1-T(wT,xt)) (14);
T(wT,xt)表示变换门,其表达式如下:
T(wT,xt)=sigm(wTxt+bT) (15);
其中,ht表示当前层的输出,xt表示上一层的输出,wT表示权值矩阵,bT表示偏置向量;
在DC-BiLSTM中,t时刻第l层网络的输入itl中的应用Highway,有:
以上式中,htl-1表示t时刻l-1层网络的输出,表示t时刻l-2层及之前所有层的输出的级联,⊙表示元素对应位相乘操作,sigm表示sigmoid激活函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910019665.X/1.html,转载请声明来源钻瓜专利网。