[发明专利]一种基于特征和注意力机制融合的事件联合抽取系统有效
申请号: | 202210230832.7 | 申请日: | 2022-03-10 |
公开(公告)号: | CN114298053B | 公开(公告)日: | 2022-05-24 |
发明(设计)人: | 陶建华;沈超;张大伟;杨国花;车飞虎 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 邓菊香 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 特征 注意力 机制 融合 事件 联合 抽取 系统 | ||
1.一种基于特征和注意力机制融合的事件联合抽取系统,其特征在于,所述系统包括:输入层、特征提取层、触发词和论元识别层和事件后处理层;
所述输入层:将文本进行语料预处理,得到单词向量嵌入式表示、词性向量嵌入式表示和实体向量嵌入式表示,再将所述单词向量嵌入式表示、词性向量嵌入式表示和实体向量嵌入式表示进行拼接,得到嵌入层表示;
所述特征提取层包括:局部特征提取层、全局特征提取层和注意力机制层;
所述局部特征提取层:将所述嵌入层表示输入卷积神经网络,经卷积运算,得到卷积特征表示,再对所述卷积特征表示进行最大池化,得到局部特征矩阵;
所述全局特征提取层:将所述嵌入层表示输入深度学习网络,得到上下文语义特征矩阵;
所述注意力机制层:根据所述卷积特征表示和上下文语义特征矩阵,应用注意力机制,得到特征融合注意力机制的信息向量,再将所述局部特征矩阵、深度学习网络的最后一维隐层输出和特征融合注意力机制的信息向量进行拼接,得到特征表示向量;
所述触发词和论元识别层:根据所述特征表示向量和其对应的标签序列,得到触发词类别标签得分和触发词的识别结果,并返回所述触发词的条件概率信息向量;
根据所述特征表示向量和所述条件概率信息向量,得到论元识别的结果;
所述事件后处理层:根据所述触发词的识别结果和所述论元识别的结果,生成完整的符合定义的事件。
2.根据权利要求1所述的一种基于特征和注意力机制融合的事件联合抽取系统,其特征在于,所述将所述嵌入层表示输入深度学习网络,得到上下文语义特征矩阵的具体方法包括:将所述嵌入层表示输入双向门控循环单元网络,得到正向门控循环单元的输出和反向门控循环单元的输出,再将所述正向门控循环单元的输出和反向门控循环单元的输出拼接,得到上下文语义特征矩阵。
3.根据权利要求1所述的一种基于特征和注意力机制融合的事件联合抽取系统,其特征在于,所述根据所述卷积特征表示和上下文语义特征矩阵,应用注意力机制,得到特征融合注意力机制的信息向量的具体方法包括:
计算所述卷积特征表示和上下文语义特征矩阵之间的注意力权重,然后将所述注意力权重和上下文语义特征矩阵进行加权,得到特征融合注意力机制的信息向量。
4.根据权利要求1所述的一种基于特征和注意力机制融合的事件联合抽取系统,其特征在于,所述根据所述特征表示向量和其对应的标签序列,得到触发词类别标签得分和触发词的识别结果,并返回所述触发词的条件概率信息向量的具体方法包括:
根据所述特征表示向量和其对应的标签序列,应用触发词识别的条件随机场得到触发词类别标签得分和触发词的识别结果,并返回所述触发词的条件概率信息向量。
5.根据权利要求1所述的一种基于特征和注意力机制融合的事件联合抽取系统,其特征在于,所述根据所述特征表示向量和所述条件概率信息向量,得到论元识别的结果的具体方法包括:
将所述特征表示向量和所述条件概率信息向量融合,根据触发词和候选词的位置,分别抽取出触发词和候选词的向量表示;
再将所述触发词和候选词的向量表示拼接起来,并将拼接后的结果送入论元识别的条件随机场,得到论元识别的结果。
6.根据权利要求1所述的一种基于特征和注意力机制融合的事件联合抽取系统,其特征在于,所述根据所述触发词的识别结果和所述论元识别的结果,生成完整的符合定义的事件的具体方法包括:
根据所述触发词的识别结果和所述论元识别的结果,利用基于SVM的后处理方法生成完整的符合定义的事件。
7.根据权利要求1所述的一种基于特征和注意力机制融合的事件联合抽取系统,其特征在于,所述将文本进行语料预处理,得到单词向量嵌入式表示、词性向量嵌入式表示的具体方法包括:
将每个单词转换为d维的单词向量,最后由BioBERT模型编码生成单词向量表示矩阵,即单词向量嵌入式表示;所述BioBERT模型为用于自然语言上的预训练模型;
应用Stanford Parser工具来得到单词的词性向量,即词性向量嵌入式表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210230832.7/1.html,转载请声明来源钻瓜专利网。