[发明专利]融合字词特征与深度学习的事件联合抽取方法有效
申请号: | 202110380536.0 | 申请日: | 2021-04-09 |
公开(公告)号: | CN113190602B | 公开(公告)日: | 2022-03-25 |
发明(设计)人: | 强保华;陈鹏;王玉峰;彭博;李宝莲;陈金勇 | 申请(专利权)人: | 桂林电子科技大学;中国电子科技集团公司第五十四研究所 |
主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F40/289;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 桂林文必达专利代理事务所(特殊普通合伙) 45134 | 代理人: | 白洪 |
地址: | 541004 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 融合 字词 特征 深度 学习 事件 联合 抽取 方法 | ||
1.融合字词特征与深度学习的事件联合抽取方法,其特征在于,包括以下步骤:
(1)对文本进行预处理:对文本采取BIO的标注方式,把事件类型和事件元素当作一个联合标签进行标注,通过从左往右和从右往左二种序列标注方法进行标注,把二个标注结果求并集当作最终标注结果;将最终标注结果文本以一个字符为单位,分割为字符集合;将待处理的文本利用jieba开源中文分词工具将句子分词,生成词汇集合;
(2)对MacBERT的绝对位置编码进行延拓:假设已经训练好的绝对位置编码向量为p1,p2,…,pn,延拓后的编码向量为q1,q2,…,qm,其中m>n;通过延拓公式q(i-1)n+j=αui+(1-α)uj进行延拓,其中超参数α∈(0,1),u1,u2,…,un是绝对位置编码的“基底”,i是“基底”的编号,i∈(1,n),j是每个“基底”的绝对位置编码编号,j∈(1,n),把i,j对应的位置编码αui和(1-α)uj叠加表示位置(i-1)n+j的位置编码,达到从n个位置编码延拓到m个的效果;
(3)对于字符集合,针对“预训练与微调阶段MASK差异”问题,使用延拓后MacBERT模型预训练的字向量,提高向量表示的精准性,通过MacBERT的词汇表建立分词器,将待处理文本以一个字符为单位,根据固定的文本最大长度对文本进行截断或者补0,得到字符向量序列;对于词汇集合,给定输入句子序列,将输入以分词为单位,经过Word2Vec的skip-gram模型训练后生成词向量序列,同时,词语对应的字符通过卷积神经网络CNN生成词语对应的字符向量序列,将二个序列叠加,得到一个字词综合向量序列;
(4)将文本的字符向量序列进行编码,生成字符隐状态向量;对字词综合向量序列进行编码,字词综合向量序列输入到一个独立的循环神经网络,捕获全局特征,生成字词综合隐状态向量;
(5)将字符隐状态向量、字词综合隐状态向量进行合并,得到全局特征隐状态向量;
(6)在全局特征隐状态向量里面加入扰动,使得模型在预测的时候受到干扰,提高模型泛化性,加入扰动使用梯度上升的方式,具体做法为其中Δx是对抗扰动,x是输入,y是标签,θ是模型参数,L(x,y;θ)是单个样本的loss,sign函数是防止扰动过大对做标准化处理,将全局特征隐状态向量输入到基于梯度上升的对抗神经网络层进行扰动,得到扰动后字词特征隐状态向量;
(7)把所述扰动后字词特征隐状态向量输入至条件随机场CRF进行标签预测,正则化计算给定句子序列标记为标签序列的得分,并且在条件随机场中使用维特比算法进行训练,计算出最高概率的事件标签序列。
2.根据权利要求1所述的事件联合抽取方法,其特征在于,所述方法还包括如下步骤:
(1)将字符向量序列作为输入序列输入到双向长短期记忆神经网络BiLSTM中,提取文本上下文特征信息,使用激活函数Tanh缓解梯度消失问题,提高双向长短期记忆神经网络编码精准性,由字符向量序列经过BiLSTM生成字符隐状态向量;
(2)将输入以分词为单位,经过Word2Vec的skip-gram模型训练后生成词向量序列,同时,词语对应的字符通过卷积神经网络CNN生成词语对应的字符向量序列,将二个序列叠加,得到一个字词综合向量序列,把所述文本的字词综合向量序列作为输入序列输入到双向长短期记忆神经网络BiLSTM中,提取文本信息,学习词语和词语对应字符之间的语义关系,生成字词综合隐状态向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学;中国电子科技集团公司第五十四研究所,未经桂林电子科技大学;中国电子科技集团公司第五十四研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110380536.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种分选机
- 下一篇:一种新型的细菌裂解的方法