[发明专利]基于实体关系级别注意力机制的事件检测方法有效
申请号: | 202110381780.9 | 申请日: | 2021-04-09 |
公开(公告)号: | CN113158667B | 公开(公告)日: | 2022-03-01 |
发明(设计)人: | 汤景凡;曹祥彪;张旻;姜明 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216;G06F40/30;G06F16/28;G06N3/04;G06N3/08 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 实体 关系 级别 注意力 机制 事件 检测 方法 | ||
本发明公开了一种基于实体关系级别注意力机制的事件检测方法。本发明步骤:首先利用依存Tree‑LSTM获取实体关系级别表示和双向LSTM获取词汇级别表示,然后利用实体关系级别注意力和词汇级别注意力捕获对于当前候选触发词有重要影响的实体关系信息和句子语义信息。再针对候选触发词,对语义信息、实体关系信息、根节点词汇级别表示以及候选触发词的词汇级别表示进行拼接,然后进行触发词识别和分类。本发明不仅可以捕获较重要的句子语义信息,而且可以减少无关的实体关系特征对当前触发词的影响,从而提高了事件检测模型的性能。
技术领域
本发明涉及事件检测方法,具体来讲是一种基于实体关系级别注意力机制的事件检测方法,属于自然语言处理领域。
背景技术
随着海量文本信息的出现以及深度学习技术的快速发展,如何快速、准确的获取用户感兴趣的事件信息,逐渐成为信息抽取领域的最具挑战的难题,而事件检测是信息抽取任务的重要环节,主要是为了从文本中找出引发事件的触发词,并为其分配正确的事件类型。此外,事件检测技术已应用于新闻消息归类、社会舆情分析等。
发明内容
本发明主要针对于在触发词识别过程中,不能同时捕获重要的实体关系特征和词汇特征的问题提出的一种基于实体关系级别注意力机制的事件检测方法。
基于实体关系级别注意力机制的事件检测方法,按照如下步骤进行:
步骤1、对原始文本中的单词和实体关系进行编码,分别获取词汇级别向量序列和实体关系级别向量序列;
步骤2、将步骤1的词汇级别向量序列输入依存Tree-LSTM,获取句子的词汇级别表示;
步骤3、将步骤1的实体关系级别向量序列输入双向LSTM,获取实体关系级别表示;
步骤4、利用词汇级别注意力机制获取句中第i个单词对第t个候选触发词的影响权重将句中的词汇级别表示加权平均,获取句子完整的语义信息
步骤5、利用实体关系级别注意力机制获取句中第j个实体关系对第t个候选触发词的影响权重将句中每个实体关系级别表示加权平均,获取句中完整的实体关系信息
步骤6、针对第t个候选触发词,对语义信息实体关系信息根节点词汇级别表示以及候选触发词的词汇级别表示进行拼接,然后进行触发词识别和分类;
进一步的,步骤1具体实现如下:
1-1.从KBP 2017英文数据集标注文件中获取实体提及、实体类型、实体关系、事件触发词。KBP 2017英文数据集一共定义了19种事件类型和21种实体关系(其中都包含“空”类型)。利用Stanford CoreNLP工具对数据集中原始文本进行分句、分词以及获取单词的词性和每个句子的依存树结构。然后创建词性向量表、实体类型向量表、实体关系向量表以及触发词类型向量表,其中在每个向量表中定义”空”类型对应的向量。随机初始化这些向量,在训练的时候更新这些向量。
1-2.首先查询预训练的Glove词向量矩阵、词性向量表、实体类型向量表。分别获取句子中每个词的词向量wi、词性向量wpos、实体类型向量we。然后查询实体关系向量表,获取句子中出现的每个实体关系对应的向量r。
1-3.每个单词真值向量为xi={wi,wpos,we},所以句子词汇级别向量序列W={x1,x2,...,xn-1,xn},实体关系级别向量序列R={r1,r2,...,rk-1,rk}。其中n是句子的长度、k为实体关系的个数(k有可能为0)。
进一步的,步骤2具体实现如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110381780.9/2.html,转载请声明来源钻瓜专利网。