[发明专利]一种基于特征和注意力机制融合的事件联合抽取系统有效
申请号: | 202210230832.7 | 申请日: | 2022-03-10 |
公开(公告)号: | CN114298053B | 公开(公告)日: | 2022-05-24 |
发明(设计)人: | 陶建华;沈超;张大伟;杨国花;车飞虎 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 邓菊香 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 特征 注意力 机制 融合 事件 联合 抽取 系统 | ||
本发明提供一种基于特征和注意力机制融合的事件联合抽取系统,包括:输入层、特征提取层、触发词和论元识别层和事件后处理层;将预训练层输出的信息结合词性和位置信息输入到BiGRU和CNN中,得到句子的上下文语义特征矩阵和局部特征矩阵,再利用注意力机制融合这两种特征,最后将三种表示联合起来进行事件抽取;词嵌入层使用预训练模型BioBERT,并对其进行微调,以提高模型的效果;事件联合抽取,避免了级联错误的产生,提升模型的效果。
技术领域
本发明属于事件抽取领域,尤其涉及一种基于特征和注意力机制融合的事件联合抽取系统、设备及存储介质。
背景技术
生物事件的定义包含四部分,分别是事件类型、事件触发词、事件论元以及论元角色。例如下面的句子S,其中包含了两个事件,第一个事件类型是Development,触发词是formation,事件论元是capillary tubes,论元角色是Theme类型;第二个事件类型是Negative Regulation,触发词是inhibited,事件论元是Thalidomide,论元角色是Theme类型。
S:Thalidomide inhabited the formation of capillary tubes.
根据上述生物事件的定义,生物医学事件抽取分为两个子任务,触发词识别、论元分类。
目前,对事件抽取的方法主要分为3类:
基于规则模式的方法的优点是所需标注语料少,在特定领域中准确率较高,但需要依赖领域知识来制定大量的事件抽取规则,灵活性与可移植性较差。
与基于规则模式的方法相比,基于机器学习的方法克服了过度依赖领域规则的问题,具有较好的鲁棒性和灵活性,但在很大程度上依赖于语料库规模和标注质量,容易产生数据矩阵稀疏问题。
基于深度学习的事件抽取模型具有学习特征表示的能力,能自动从自然语言中抽取特征,避免了复杂的特征工程以及人工干预带来的问题。
然而,目前的事件抽取模型研究只利用了一部分浅层的语义信息,且大多数的事件抽取模型为管道模型,采用管道式的处理方法,这样容易导致触发词识别阶段产生的误差传递到论元分类阶段。
发明内容
为解决上述技术问题,本发明提出一种基于特征和注意力机制融合的事件联合抽取系统、设备及存储介质的技术方案,以解决上述技术问题。
本发明第一方面公开了一种基于特征和注意力机制融合的事件联合抽取系统,所述系统包括:输入层、特征提取层、触发词和论元识别层和事件后处理层;
所述输入层:将文本进行语料预处理,得到单词向量嵌入式表示、词性向量嵌入式表示和实体向量嵌入式表示,再将所述单词向量嵌入式表示、词性向量嵌入式表示和实体向量嵌入式表示进行拼接,得到嵌入层表示;
所述特征提取层包括:局部特征提取层、全局特征提取层和注意力机制层;
所述局部特征提取层:将所述嵌入层表示输入卷积神经网络,经卷积运算,得到卷积特征表示,再对所述卷积特征表示进行最大池化,得到局部特征矩阵;
所述全局特征提取层:将所述嵌入层表示输入深度学习网络,得到上下文语义特征矩阵;
所述注意力机制层:根据所述卷积特征表示和上下文语义特征矩阵,应用注意力机制,得到特征融合注意力机制的信息向量,再将所述局部特征矩阵、深度学习网络的最后一维隐层输出和特征融合注意力机制的信息向量进行拼接,得到特征表示向量;
所述触发词和论元识别层:根据所述特征表示向量和其对应的标签序列,得到触发词类别标签得分和触发词的识别结果,并返回所述触发词的条件概率信息向量;
根据所述特征表示向量和所述条件概率信息向量,得到论元识别的结果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210230832.7/2.html,转载请声明来源钻瓜专利网。