[发明专利]一种基于共指融合的篇章事件抽取方法在审
申请号: | 201910964681.6 | 申请日: | 2019-10-11 |
公开(公告)号: | CN110765231A | 公开(公告)日: | 2020-02-07 |
发明(设计)人: | 杨理想;张侨;王银瑞 | 申请(专利权)人: | 南京摄星智能科技有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F40/205;G06F16/35 |
代理公司: | 32341 南京中律知识产权代理事务所(普通合伙) | 代理人: | 沈振涛 |
地址: | 210000 江苏省南京市经济*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种基于共指融合的篇章事件抽取的方法,用以解决针对传统的事件抽取方法并不能很好地解决事件抽取的问题,具体为通过利用对根据相同的触发词进行人工标注的数据集,进行数据结构获取及预处理后,切分句子进行文本初始化特征提取,进行模型训练后,再进行事件融合处理的方法,通过此方法,可以将篇章文本中的相同事件进行融合,去除冗余信息,获取事件的更多要素信息,得到更加全面的事件描述,同时,可有效提高事件抽取效果,具有广泛的应用前景。 | ||
搜索关键词: | 抽取 文本 预处理 模型训练 人工标注 融合处理 冗余信息 事件描述 数据结构 特征提取 要素信息 融合 初始化 传统的 数据集 触发 去除 句子 应用 | ||
【主权项】:
1.一种基于共指融合的篇章事件抽取方法,其特征在于:具体步骤为:/n(1)标注数据集/n从待抽取事件的篇章文本中找出相同的触发词,即为相同类型的事件,人工标注出相同类型的事件分类信息,得到标注数据集;/n(2)获取数据结构/n对标注数据进行处理,得到相同事件和不同事件的语料集合,获得需要的数据结构,每条数据包括:包含两个触发词的语句以其中间的语句、两个触发词首字的索引、以及这两个触发词是否属于同一事件的标注结果;/n(3)数据预处理/n对步骤(2)中获得数据结构进行预处理,获得数据的位置特征编码信息;/n(4)切分句子/n根据触发词位置将一条文本数据在两个触发词处各切一刀,将一句话分为三部分,同时对位置向量也进行同样的切分操作;/n(5)初始化处理/n通过查找预先训练好的词嵌入,将每个输入词标记转换成向量,获取文本特征信息;/n(6)特征提取/n将位置特征编码信息和文本特征信息拼接,然后将上面三个数据分别通过CNN提取特征,提取出来的特征通过maxpooling层之后进行拼接后送入softmax层,经过全连接层进行二分类,最终得到两个事件的分类结果;/n(7)模型训练/n将构造的数据送进分段卷积神经网络模型进行训练;/n(8)事件融合/n提取篇章文本中的同一类型事件,经模型判断是否为同一事件,如果是同一事件,则将两个事件融合,抽取两个事件中的要素信息并互相补充,生成事件的结构化信息;如果经过判断,多个事件两两为同一事件,则将多个事件融合,事件要素生成一个事件的结构化信息。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京摄星智能科技有限公司,未经南京摄星智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910964681.6/,转载请声明来源钻瓜专利网。