[发明专利]基于BiLSTM结合多头注意力的中文重叠事件抽取系统在审

专利信息
申请号: 202210656832.3 申请日: 2022-06-07
公开(公告)号: CN115062146A 公开(公告)日: 2022-09-16
发明(设计)人: 甘玲;张在军;刘菊;胡柳慧 申请(专利权)人: 重庆邮电大学
主分类号: G06F16/35 分类号: G06F16/35;G06N3/04;G06N3/08
代理公司: 北京同恒源知识产权代理有限公司 11275 代理人: 方钟苑
地址: 400065 *** 国省代码: 重庆;50
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 bilstm 结合 多头 注意力 中文 重叠 事件 抽取 系统
【说明书】:

发明涉及一种基于BiLSTM结合多头注意力的中文重叠事件抽取系统,属于自然语言处理领域,Bert编码器作为文本编码器,生成以标记上下文为条件的文本表示,并包含丰富的文本信息;事件类型检测解码器基于Bert文本分类模型,对事件进行分类;触发词提取解码器通过事件类型检测与触发词提取之间的条件依赖关系,根据获取到的事件类型提取出触发词;事件元素提取解码器采用多头注意力结合双向LSTM层对事件元素进行提取;损失权重调整模块结合多个损失函数,利用多个目标的同方差不确定性为每个任务动态分配权重。

技术领域

本发明属于自然语言处理领域,涉及一种基于BiLSTM结合多头注意力的中文重叠事件抽取系统。

背景技术

随着互联网技术的发展,大量信息以文本的形式存储在计算机里,如何挖掘有价值的信息,已成为信息抽取的核心问题。事件抽取是信息抽取领域的研究热点之一,核心任务是从无结构化的自然语言文本中抽取指定类型的信息,并以半结构化或结构化的形式进行表示。

目前主流的研究方法大多基于神经网络,通过网络提取特征。Chen等人提出基于动态多池化卷积神经网络的方法,根据触发词和事件元素使用动态多池化层提取信息;Zeng等人提出用双向LSTM和CRF抽取句子特征,用卷积神经网络抽取语义特征进行中文事件抽取;Chen等人提出利用知识库的远程监督方法,生成大规模标注数据,应用到金融领域;Liu等人提出联合多事件提取框架用于重叠事件抽取;Yang等人提出根据角色分离事件元素的方法解决角色重叠问题。

在现有技术中,存在以下问题:(1)对于应用场景复杂的中文金融事件元素提取,事件中含有较多未定义的公司名、专业词汇。由于提取的特征不足,存在识别召回率较低问题。(2)对于多任务联合学习模型,其底层网络参数是共享的,因此,模型的收敛往往容易偏向于损失权重占比较大的任务,导致错误传播问题。

发明内容

有鉴于此,本发明的目的在于提供一种基于BiLSTM结合多头注意力的中文重叠事件抽取系统,采用多头自注意力融合双向LSTM进行事件元素的识别,可以更好地进行特征提取,获取更丰富的语义信息,解决多任务联合学习模型存在的提取特征不足导致事件元素识别召回率低的问题,本发明还根据损失占比为各任务设置损失权重,弱化下游任务对上游任务的影响,解决各个子任务损失占比相差较大导致错误传播的问题。

为达到上述目的,本发明提供如下技术方案:

一种基于BiLSTM结合多头注意力的中文重叠事件抽取系统,包括Bert编码器、事件类型检测解码器、触发词提取解码器、事件元素提取解码器和损失权重调整模块;

所述Bert编码器作为文本编码器,生成以标记上下文为条件的文本表示,并包含丰富的文本信息;

所述事件类型检测解码器基于Bert文本分类模型,对事件进行分类;

所述触发词提取解码器通过事件类型检测与触发词提取之间的条件依赖关系,根据获取到的事件类型提取出触发词;

所述事件元素提取解码器采用多头注意力结合双向LSTM层对事件元素进行提取;

所述损失权重调整模块结合多个损失函数,利用多个目标的同方差不确定性为每个任务动态分配权重。

进一步,所述事件类型检测解码器基于Bert文本分类模型,将最后一层输出的第一个token位置当作句子的表示,然后连接全连接层进行分类,具体包括以下步骤:

S11:首先初始化嵌入矩阵为类型嵌入,其中E表示事件类型集合,d为词向量维(d=768);

S12:通过相似性函数δ来度量候选类型c∈C和标记表示之间的相关性;

S13:通过测量具有相同相似度函数δ的自适应句子表征sc、类型嵌入c的相似度来预测事件类型。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210656832.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top