[发明专利]基于循环神经网络的中文事件抽取方法在审
申请号: | 202011571592.4 | 申请日: | 2020-12-27 |
公开(公告)号: | CN112613305A | 公开(公告)日: | 2021-04-06 |
发明(设计)人: | 王嘉旭;王洁 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06N3/04;G06N3/08 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 循环 神经网络 中文 事件 抽取 方法 | ||
1.基于循环神经网络的中文事件抽取方法,其特征在于:该方法包括如下步骤,
步骤1:将语料库中的语料进行分句处理,并把每一个句子输入到预训练的bert模型中,得到句子中每一个字对应的动态编码;
步骤2:将经过步骤1编码的向量输入到循环神经网络中,经过双向的lstm单元进行特征提取,得到每一个字对应的网络输出和整个句子向量的网络输出即网络前向和后向的最后一个隐层向量;
步骤3:将步骤3得到的循环神经网络前向和后向的最后一个隐层向量与循环神经网络的输出拼接成触发词的特征向量,之后输入到CRF层进行触发词的识别;
步骤4:通过CRF层对触发词的类别进行识别,训练CRF,识别触发词并确定其类别;
步骤5:将步骤4已识别的触发词的特征向量与当前的字向量进行拼接作为事件元素的特征向量,之后输入到CRF层进行事件元素的识别;
步骤6:通过CRF层对事件元素进行分类识别,训练CRF,识别事件元素并确定其角色信息;
步骤7:将两个CRF分类器联合到一个模型中,为了协调不同子任务的收敛速率,在交叉熵损失函数的基础上增加软约束,在较短的时间内完成对模型的训练。
2.根据权利要求1所述的基于循环神经网络的中文事件抽取方法,其特征在于:对于语料库D中一个长度为n的句子表示为如下形式:
W=W1,W2,...,Wn
其中,Wi表示句子中的第i个字;句子中的每个字采用BIO方式进行标注,Wi对应的触发词的标签为ti,对应的事件元素的标签为ai;统一设置语料库中的句子长度为n,对于长度大于的句子进行截取,对于长度小于n的句子则用特殊符号pad将其补齐,这里使用0来表示pad;假设句子总数为N,则输入层即为个长度为n的句子集合,用N×n的向量表示。
3.根据权利要求1所述的基于循环神经网络的中文事件抽取方法,其特征在于:在句子W的开头和末尾分别添加[CLS]和[SEP]标识符,对W进行初始编码,句子中第i个字的初始编码表示如下:
这里为向量拼接操作,其中表示Wi对应的向量编码,表示Wi的语义编码,表示Wi的位置编码,三部分拼接得到Wi的初始编码Ei;句子W的初始编码E即为:
E=E1,E2,...,En
将由三部分向量组成的初始编码E输入到bert模型中,经过双向transformer结构得到最终的向量编码X:
X=x1,x2,...,xn
假设词嵌入长度为K,则X用N×n×K的向量表示。
4.根据权利要求1所述的基于循环神经网络的中文事件抽取方法,其特征在于:所用的循环神经网络模型为双向的LSTM网络,将步骤3得到的向量输入到双向的LSTM网络中进行特征提取;网络在t时刻的隐层向量表示如下:
其中,表示LSTM单元在t时刻的前向隐层向量输出,表示LSTM单元在t时刻的后向隐层向量输出,ht表示LSTM单元在t时刻的输出,是由t时刻的前向和后向隐层向量拼接而成;将步骤3得到的向量编码X输入到双向LSTM网络中,设置网络的隐藏状态的大小为hidden_dim,则最终h向量的大小为N×n×hidden_dim。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011571592.4/1.html,转载请声明来源钻瓜专利网。