[发明专利]一种基于共指融合的篇章事件抽取方法在审

申请号：	201910964681.6	申请日：	2019-10-11
公开（公告）号：	CN110765231A	公开（公告）日：	2020-02-07
发明（设计）人：	杨理想;张侨;王银瑞	申请（专利权）人：	南京摄星智能科技有限公司
主分类号：	G06F16/31	分类号：	G06F16/31;G06F40/205;G06F16/35
代理公司：	32341 南京中律知识产权代理事务所(普通合伙)	代理人：	沈振涛
地址：	210000 江苏省南京市经济***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	抽取文本预处理模型训练人工标注融合处理冗余信息事件描述数据结构特征提取要素信息融合初始化传统的数据集触发去除句子应用
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于共指融合的篇章事件抽取方法，其特征在于：具体步骤为：

(1)标注数据集

从待抽取事件的篇章文本中找出相同的触发词，即为相同类型的事件，人工标注出相同类型的事件分类信息，得到标注数据集；

(2)获取数据结构

对标注数据进行处理，得到相同事件和不同事件的语料集合，获得需要的数据结构，每条数据包括：包含两个触发词的语句以其中间的语句、两个触发词首字的索引、以及这两个触发词是否属于同一事件的标注结果；

(3)数据预处理

对步骤(2)中获得数据结构进行预处理，获得数据的位置特征编码信息；

(4)切分句子

根据触发词位置将一条文本数据在两个触发词处各切一刀，将一句话分为三部分，同时对位置向量也进行同样的切分操作；

(5)初始化处理

通过查找预先训练好的词嵌入，将每个输入词标记转换成向量，获取文本特征信息；

(6)特征提取

将位置特征编码信息和文本特征信息拼接，然后将上面三个数据分别通过CNN提取特征，提取出来的特征通过maxpooling层之后进行拼接后送入softmax层，经过全连接层进行二分类，最终得到两个事件的分类结果；

(7)模型训练

将构造的数据送进分段卷积神经网络模型进行训练；

(8)事件融合

提取篇章文本中的同一类型事件，经模型判断是否为同一事件，如果是同一事件，则将两个事件融合，抽取两个事件中的要素信息并互相补充，生成事件的结构化信息；如果经过判断，多个事件两两为同一事件，则将多个事件融合，事件要素生成一个事件的结构化信息。

2.根据权利要求1所述的基于共指融合的篇章事件抽取方法，其特征在于：步骤(2)中，构造数据时，只标注最临近具有相同类型的事件分类信息事件。

3.根据权利要求1所述的基于共指融合的篇章事件抽取方法，其特征在于：步骤(3)中，位置特征编码信息包括按句子中各个词离触发词的长度信息、方向信息，其中所述方向信息为左侧或右侧。

4.根据权利要求1所述的基于共指融合的篇章事件抽取方法，其特征在于：步骤(7)中，所述模型的结构如下：进行语料信息切断处理成词，通过word2vec的Skip-gram模型将词表示成向量形式，与位置向量即各词语与两个实体的相对位置，进行拼接作为输入，之后通过卷积层得到feature map；在池化层通过两个实体位置将feature map分为三段进行池化，用于捕获两个实体间的结构化信息；最后，通过softmax层进行分类。

5.根据权利要求4所述的基于共指融合的篇章事件抽取方法，其特征在于：切断语料信息时，只截取包含两个触发词的语句以及其中间语句。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京摄星智能科技有限公司，未经南京摄星智能科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910964681.6/1.html，转载请声明来源钻瓜专利网。

上一篇：一种法律文本存储方法、装置、可读存储介质及终端设备
下一篇：数据处理方法、装置、计算机设备和存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于共指融合的篇章事件抽取方法在审

专利文献下载