[发明专利]融合字词特征与深度学习的事件联合抽取方法有效

专利信息
申请号: 202110380536.0 申请日: 2021-04-09
公开(公告)号: CN113190602B 公开(公告)日: 2022-03-25
发明(设计)人: 强保华;陈鹏;王玉峰;彭博;李宝莲;陈金勇 申请(专利权)人: 桂林电子科技大学;中国电子科技集团公司第五十四研究所
主分类号: G06F16/25 分类号: G06F16/25;G06F40/289;G06F40/30;G06N3/04;G06N3/08
代理公司: 桂林文必达专利代理事务所(特殊普通合伙) 45134 代理人: 白洪
地址: 541004 广西*** 国省代码: 广西;45
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 融合 字词 特征 深度 学习 事件 联合 抽取 方法
【说明书】:

发明公开了一种融合字词特征与深度学习的事件联合抽取方法,所述方法把事件类型和事件元素当作一个联合标签进行标注,减少了流水线误差。通过延拓MacBERT解决文本按字符切分过长无法全部放入预训练模型提取特征的问题,再结合字符和单词的特征,动态地捕获输入序列任意字符和单词之间的依赖关系,更加充分获取文本的语义信息和字、词特征;在模型训练过程中加入扰动去干扰CRF解码,通过对抗训练的方式提高模型的泛化性和健壮性。从减少流水线误差、获取文本更全面的语义信息和加入对抗训练提高模型泛化性三个方面提高事件抽取的准确率和召回率。

技术领域

本发明涉及事件抽取领域,具体涉及一种融合字词特征与深度学习的事件联合抽取方法。

背景技术

信息抽取的任务包括实体识别与抽取、实体消解、关系抽取和事件抽取等,信息为特定的人、物在特定时间与特定地点相互作用的客观事实,事件抽取是从非结构化信息中自动抽取用户感兴趣的事件,以结构化的方式存储在数据库中供用户查看。

事件抽取包括识别事件类型和识别事件元素二部分,传统的事件抽取,通常采用先识别触发词再识别事件类型最后识别事件元素这样流水线的工作方式,这种工作方式虽然较为灵活但是避免不了流水线的误差。使用流水线的工作方式,单纯地结合字符和单词两种粒度的信息训练事件抽取模型,缺失了很多特征维度信息,对某些事件类型和事件元素的识别存在着一定的困难。

事件抽取通常在一个文本中会有多个事件元素和多个事件类型,一个事件元素有可能属于多个事件类型,一个事件类型可能拥有多个事件元素,即多对多的形态,并且这些元素可能会分布在多个句子中,这些特性是导致事件抽取困难的重要原因,如何充分有效地利用文本特征以提高事件抽取模型的泛化性和健壮性,仍然是当前需要解决的问题。

发明内容

本发明针对事件抽取领域现存的问题,在BiLSTM模型的基础上,把事件类型和事件元素当作一个联合标签进行标注,减少流水线误差;融入字信息以及字词融合信息,并且使用延拓后的MacBERT模型预训练字向量和词向量,更好地解决字符和单词多语义向量表示问题及字符切分文本过长语义学习不全问题;在模型训练过程中注入扰动,通过对抗训练方式提高模型的泛化性和健壮性。

为了实现上述发明目的,本发明提供了以下技术方案:

S1:对待处理的文本进行预处理。

S2:对MacBERT的绝对位置编码进行延拓。

S3:利用预训练模型和词嵌入模型,结合预处理后文本的字符特征信息、分词特征信息,生成文本的字符向量序列和词向量序列。

S4:将文本的字符向量序列进行编码,生成字符隐状态向量。

S5:将文本的词向量输入到卷积神经网络,生成字词综合向量序列,对字词综合向量序列进行编码,字词综合向量序列输入到一个独立的循环神经网络,捕获全局特征,生成字词综合隐状态序列的向量。

S6:将所述字符隐状态向量、字词综合隐状态向量进行合并,得到全局特征隐状态向量。

S7:将所述全局特征隐状态向量,输入到基于梯度上升的对抗神经网络层进行扰动,得到扰动后字词特征隐状态向量。

S8:把所述扰动后字词特征隐状态向量和所述文本的字符向量序列输入到 CRF模型中进行解码,标注出所述文本特征向量序列中的事件元素及该元素的事件类型,生成对应的事件标签序列。

所述步骤S1中,对文本的预处理方式为:对文本采取BIO的标注方式,把事件类型和事件元素当作一个联合标签进行标注,通过从左往右和从右往左二种序列标注方法进行标注,把二个标注结果求并集当作最终标注结果。将标注结果文本以一个字符为单位,分割为字符集合;将待处理的文本利用jieba开源中文分词工具将句子分词,生成词汇集合。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学;中国电子科技集团公司第五十四研究所,未经桂林电子科技大学;中国电子科技集团公司第五十四研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110380536.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top