[发明专利]一种事件抽取方法和装置有效
申请号: | 202010187298.7 | 申请日: | 2020-03-17 |
公开(公告)号: | CN111428504B | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 徐猛;付骁弈 | 申请(专利权)人: | 北京明略软件系统有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06F16/35;G06N3/045;G06N3/0442 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 王康;龙洪 |
地址: | 100084 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 事件 抽取 方法 装置 | ||
1.一种事件抽取方法,其特征在于,所述方法包括:
预先将触发词类型划分为x种,将实体类型划分为y种,将事件论元类型划分为z种,将所述触发词类型、所述实体类型以及所述事件论元类型以外的类型作为其他类型other;其中,x、y、z均为正整数;
在获得语句的向量化语义表示W1之前,进行以下任意一种或多种操作:
在语句中设置一个或多个token;每一个token用于标记当前词语是否为所述触发词类型;每个token表示x种类型中的任意一种;
根据设定的span宽度,对语句进行span划分,以将语句划分为多个span,并对每个span进行标记,以确定当前span是否属于实体类型;每个标记表示y种类型中的任意一种;
对标记的每一个token和span进行两两结合,并标记结合后的token和span是否为(触发词-论元)对;
获得语句的向量化语义表示W1;
根据所述向量化语义表示W1中设置的token进行触发词识别;
根据所述向量化语义表示W1进行span的划分获得的相应的span语义表示进行实体识别,包括:对所述向量化语义表示W1进行span划分,得到多个语义片段;对多个语义片段进行平均池化,得到每个span的表示W3;将每个span的表示W3作为输入,使用两层全连接神经网络和softmax层对每个span进行分类,输出维度为[N,y+1]的向量W4,向量W4表示每个span属于每一类型实体的概率;
其中,所述对所述向量化语义表示W1进行span划分,得到多个语义片段;对多个语义片段进行平均池化,得到每个span的表示W3,包括:获取设定的span的最大宽度max_span_width;根据span的宽度从1到max_span_width依次在所述向量化语义表示W1上进行选取,获得N个span的语义表示span_embedding;对N个span的语义表示span_embedding进行平均池化,得到每个span的表示W3;
对每一个token和span进行两两结合,并标记结合后的token和span是否为(触发词-论元)对。
2.根据权利要求1所述的事件抽取方法,其特征在于,所述获得语句的向量化语义表示W1包括:通过双向LSTM网络模型或BERT模型获得语句的向量化语义表示W1。
3.根据权利要求2所述的事件抽取方法,其特征在于,在通过双向LSTM网络获得语句的向量化语义表示W1之前,所述方法还包括:将语句中的a个字符随机初始化为一个维度为[a,b]的b维向量D,其中,对于从0到a-1的索引id,每个id对应一个不同的字符;对于长度为S的语句,该语句中每一个字符能够在向量D中找到对应的id,从而获得维度为[S,D]的向量;
通过双向LSTM网络获得语句的向量化语义表示W1包括:将维度为[S,D]的向量输入预设的双向LSTM神经网络,将所述双向LSTM神经网络的输出作为语句的向量化语义表示W1;
其中,所述向量化语义表示W1的维度为[S,D1];D1为2*LSTM隐层节点数。
4.根据权利要求2所述的事件抽取方法,其特征在于,通过BERT模型获得语句的向量化语义表示W1包括:将语句直接输入所述BERT模型,将所述BERT模型的输出作为语句的向量化语义表示W1;
其中,所述向量化语义表示W1的维度为[S,D1];D1=768。
5.根据权利要求1所述的事件抽取方法,其特征在于,所述根据所述向量化语义表示W1中设置的token进行触发词识别包括:
通过两层全连接神经网络和softmax层对每个token进行分类,获得维度为[S,x+1]的向量W2,向量W2表示每个token属于每一类型触发词的概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略软件系统有限公司,未经北京明略软件系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010187298.7/1.html,转载请声明来源钻瓜专利网。