[发明专利]一种基于共指融合的篇章事件抽取方法在审
申请号: | 201910964681.6 | 申请日: | 2019-10-11 |
公开(公告)号: | CN110765231A | 公开(公告)日: | 2020-02-07 |
发明(设计)人: | 杨理想;张侨;王银瑞 | 申请(专利权)人: | 南京摄星智能科技有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F40/205;G06F16/35 |
代理公司: | 32341 南京中律知识产权代理事务所(普通合伙) | 代理人: | 沈振涛 |
地址: | 210000 江苏省南京市经济*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 抽取 文本 预处理 模型训练 人工标注 融合处理 冗余信息 事件描述 数据结构 特征提取 要素信息 融合 初始化 传统的 数据集 触发 去除 句子 应用 | ||
1.一种基于共指融合的篇章事件抽取方法,其特征在于:具体步骤为:
(1)标注数据集
从待抽取事件的篇章文本中找出相同的触发词,即为相同类型的事件,人工标注出相同类型的事件分类信息,得到标注数据集;
(2)获取数据结构
对标注数据进行处理,得到相同事件和不同事件的语料集合,获得需要的数据结构,每条数据包括:包含两个触发词的语句以其中间的语句、两个触发词首字的索引、以及这两个触发词是否属于同一事件的标注结果;
(3)数据预处理
对步骤(2)中获得数据结构进行预处理,获得数据的位置特征编码信息;
(4)切分句子
根据触发词位置将一条文本数据在两个触发词处各切一刀,将一句话分为三部分,同时对位置向量也进行同样的切分操作;
(5)初始化处理
通过查找预先训练好的词嵌入,将每个输入词标记转换成向量,获取文本特征信息;
(6)特征提取
将位置特征编码信息和文本特征信息拼接,然后将上面三个数据分别通过CNN提取特征,提取出来的特征通过maxpooling层之后进行拼接后送入softmax层,经过全连接层进行二分类,最终得到两个事件的分类结果;
(7)模型训练
将构造的数据送进分段卷积神经网络模型进行训练;
(8)事件融合
提取篇章文本中的同一类型事件,经模型判断是否为同一事件,如果是同一事件,则将两个事件融合,抽取两个事件中的要素信息并互相补充,生成事件的结构化信息;如果经过判断,多个事件两两为同一事件,则将多个事件融合,事件要素生成一个事件的结构化信息。
2.根据权利要求1所述的基于共指融合的篇章事件抽取方法,其特征在于:步骤(2)中,构造数据时,只标注最临近具有相同类型的事件分类信息事件。
3.根据权利要求1所述的基于共指融合的篇章事件抽取方法,其特征在于:步骤(3)中,位置特征编码信息包括按句子中各个词离触发词的长度信息、方向信息,其中所述方向信息为左侧或右侧。
4.根据权利要求1所述的基于共指融合的篇章事件抽取方法,其特征在于:步骤(7)中,所述模型的结构如下:进行语料信息切断处理成词,通过word2vec的Skip-gram模型将词表示成向量形式,与位置向量即各词语与两个实体的相对位置,进行拼接作为输入,之后通过卷积层得到feature map;在池化层通过两个实体位置将feature map分为三段进行池化,用于捕获两个实体间的结构化信息;最后,通过softmax层进行分类。
5.根据权利要求4所述的基于共指融合的篇章事件抽取方法,其特征在于:切断语料信息时,只截取包含两个触发词的语句以及其中间语句。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京摄星智能科技有限公司,未经南京摄星智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910964681.6/1.html,转载请声明来源钻瓜专利网。