[发明专利]一种事件抽取方法和装置有效

专利信息
申请号: 202010187298.7 申请日: 2020-03-17
公开(公告)号: CN111428504B 公开(公告)日: 2023-04-28
发明(设计)人: 徐猛;付骁弈 申请(专利权)人: 北京明略软件系统有限公司
主分类号: G06F40/295 分类号: G06F40/295;G06F40/30;G06F16/35;G06N3/045;G06N3/0442
代理公司: 北京安信方达知识产权代理有限公司 11262 代理人: 王康;龙洪
地址: 100084 北京市海淀区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 事件 抽取 方法 装置
【权利要求书】:

1.一种事件抽取方法,其特征在于,所述方法包括:

预先将触发词类型划分为x种,将实体类型划分为y种,将事件论元类型划分为z种,将所述触发词类型、所述实体类型以及所述事件论元类型以外的类型作为其他类型other;其中,x、y、z均为正整数;

在获得语句的向量化语义表示W1之前,进行以下任意一种或多种操作:

在语句中设置一个或多个token;每一个token用于标记当前词语是否为所述触发词类型;每个token表示x种类型中的任意一种;

根据设定的span宽度,对语句进行span划分,以将语句划分为多个span,并对每个span进行标记,以确定当前span是否属于实体类型;每个标记表示y种类型中的任意一种;

对标记的每一个token和span进行两两结合,并标记结合后的token和span是否为(触发词-论元)对;

获得语句的向量化语义表示W1;

根据所述向量化语义表示W1中设置的token进行触发词识别;

根据所述向量化语义表示W1进行span的划分获得的相应的span语义表示进行实体识别,包括:对所述向量化语义表示W1进行span划分,得到多个语义片段;对多个语义片段进行平均池化,得到每个span的表示W3;将每个span的表示W3作为输入,使用两层全连接神经网络和softmax层对每个span进行分类,输出维度为[N,y+1]的向量W4,向量W4表示每个span属于每一类型实体的概率;

其中,所述对所述向量化语义表示W1进行span划分,得到多个语义片段;对多个语义片段进行平均池化,得到每个span的表示W3,包括:获取设定的span的最大宽度max_span_width;根据span的宽度从1到max_span_width依次在所述向量化语义表示W1上进行选取,获得N个span的语义表示span_embedding;对N个span的语义表示span_embedding进行平均池化,得到每个span的表示W3;

对每一个token和span进行两两结合,并标记结合后的token和span是否为(触发词-论元)对。

2.根据权利要求1所述的事件抽取方法,其特征在于,所述获得语句的向量化语义表示W1包括:通过双向LSTM网络模型或BERT模型获得语句的向量化语义表示W1。

3.根据权利要求2所述的事件抽取方法,其特征在于,在通过双向LSTM网络获得语句的向量化语义表示W1之前,所述方法还包括:将语句中的a个字符随机初始化为一个维度为[a,b]的b维向量D,其中,对于从0到a-1的索引id,每个id对应一个不同的字符;对于长度为S的语句,该语句中每一个字符能够在向量D中找到对应的id,从而获得维度为[S,D]的向量;

通过双向LSTM网络获得语句的向量化语义表示W1包括:将维度为[S,D]的向量输入预设的双向LSTM神经网络,将所述双向LSTM神经网络的输出作为语句的向量化语义表示W1;

其中,所述向量化语义表示W1的维度为[S,D1];D1为2*LSTM隐层节点数。

4.根据权利要求2所述的事件抽取方法,其特征在于,通过BERT模型获得语句的向量化语义表示W1包括:将语句直接输入所述BERT模型,将所述BERT模型的输出作为语句的向量化语义表示W1;

其中,所述向量化语义表示W1的维度为[S,D1];D1=768。

5.根据权利要求1所述的事件抽取方法,其特征在于,所述根据所述向量化语义表示W1中设置的token进行触发词识别包括:

通过两层全连接神经网络和softmax层对每个token进行分类,获得维度为[S,x+1]的向量W2,向量W2表示每个token属于每一类型触发词的概率。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略软件系统有限公司,未经北京明略软件系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010187298.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top