[发明专利]一种基于共指融合的篇章事件抽取方法在审

专利信息
申请号: 201910964681.6 申请日: 2019-10-11
公开(公告)号: CN110765231A 公开(公告)日: 2020-02-07
发明(设计)人: 杨理想;张侨;王银瑞 申请(专利权)人: 南京摄星智能科技有限公司
主分类号: G06F16/31 分类号: G06F16/31;G06F40/205;G06F16/35
代理公司: 32341 南京中律知识产权代理事务所(普通合伙) 代理人: 沈振涛
地址: 210000 江苏省南京市经济*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 抽取 文本 预处理 模型训练 人工标注 融合处理 冗余信息 事件描述 数据结构 特征提取 要素信息 融合 初始化 传统的 数据集 触发 去除 句子 应用
【权利要求书】:

1.一种基于共指融合的篇章事件抽取方法,其特征在于:具体步骤为:

(1)标注数据集

从待抽取事件的篇章文本中找出相同的触发词,即为相同类型的事件,人工标注出相同类型的事件分类信息,得到标注数据集;

(2)获取数据结构

对标注数据进行处理,得到相同事件和不同事件的语料集合,获得需要的数据结构,每条数据包括:包含两个触发词的语句以其中间的语句、两个触发词首字的索引、以及这两个触发词是否属于同一事件的标注结果;

(3)数据预处理

对步骤(2)中获得数据结构进行预处理,获得数据的位置特征编码信息;

(4)切分句子

根据触发词位置将一条文本数据在两个触发词处各切一刀,将一句话分为三部分,同时对位置向量也进行同样的切分操作;

(5)初始化处理

通过查找预先训练好的词嵌入,将每个输入词标记转换成向量,获取文本特征信息;

(6)特征提取

将位置特征编码信息和文本特征信息拼接,然后将上面三个数据分别通过CNN提取特征,提取出来的特征通过maxpooling层之后进行拼接后送入softmax层,经过全连接层进行二分类,最终得到两个事件的分类结果;

(7)模型训练

将构造的数据送进分段卷积神经网络模型进行训练;

(8)事件融合

提取篇章文本中的同一类型事件,经模型判断是否为同一事件,如果是同一事件,则将两个事件融合,抽取两个事件中的要素信息并互相补充,生成事件的结构化信息;如果经过判断,多个事件两两为同一事件,则将多个事件融合,事件要素生成一个事件的结构化信息。

2.根据权利要求1所述的基于共指融合的篇章事件抽取方法,其特征在于:步骤(2)中,构造数据时,只标注最临近具有相同类型的事件分类信息事件。

3.根据权利要求1所述的基于共指融合的篇章事件抽取方法,其特征在于:步骤(3)中,位置特征编码信息包括按句子中各个词离触发词的长度信息、方向信息,其中所述方向信息为左侧或右侧。

4.根据权利要求1所述的基于共指融合的篇章事件抽取方法,其特征在于:步骤(7)中,所述模型的结构如下:进行语料信息切断处理成词,通过word2vec的Skip-gram模型将词表示成向量形式,与位置向量即各词语与两个实体的相对位置,进行拼接作为输入,之后通过卷积层得到feature map;在池化层通过两个实体位置将feature map分为三段进行池化,用于捕获两个实体间的结构化信息;最后,通过softmax层进行分类。

5.根据权利要求4所述的基于共指融合的篇章事件抽取方法,其特征在于:切断语料信息时,只截取包含两个触发词的语句以及其中间语句。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京摄星智能科技有限公司,未经南京摄星智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910964681.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top