[发明专利]一种文档级别的中文事件抽取方法在审
申请号: | 202210639099.4 | 申请日: | 2022-06-07 |
公开(公告)号: | CN114880437A | 公开(公告)日: | 2022-08-09 |
发明(设计)人: | 王剑;双锴;周冀;安镇宙;于勇涛;杨健 | 申请(专利权)人: | 北京合立春天科技发展有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/211;G06F40/295;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 洛阳公信知识产权事务所(普通合伙) 41120 | 代理人: | 宋晨炜 |
地址: | 100000 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文档 级别 中文 事件 抽取 方法 | ||
一种文档级别的中文事件抽取方法,包括:步骤1、从文档中粗筛中文事件数据,对获取到的中文事件数据进行预处理后获取事件数据集;步骤2、对事件数据集制定不同领域下的典型事件进行标注,得到每一类事件类别的标注数据集;步骤3、构建中文通用领域事件抽取模型:基于卷积神经网络和图卷积神经网络,对标注数据集进行特征提取后,进行事件类别分类和论元角色抽取。本方法将原始文档重构为“图像”结构和图结构,完成事件分类和相应论元分类任务,提高事件抽取精度和模型的泛化能力。
技术领域
本发明涉及事件数据处理技术,具体说的是一种文档级别的中文事件抽取方法。
背景技术
随着信息技术以及新闻媒体和社交媒体等媒介的快速发展,信息以各种形式满足人们的日常信息获取需要,如图像形式,文本形式和流媒体形式等,种类繁多,数量庞大的信息群造成了信息冗余,可读性差等问题,如何在非结构化信息中自动化地抽取出结构化的重要信息成为了亟待解决的问题,事件作为信息表示的基本单元,如何快速、有效的进行事件抽取对于信息抽取任务和信息理解任务至关重要,为了响应“互联网+”的号召,各个领域与计算机的联系愈加密切,比如金融领域、医疗领域等。
目前,事件抽取模型主要有两种方式:管道模型和联合模型,管道模型是指将事件抽取中各项子任务(事件检测和分类、论元检测和分类)以“串行”的方式进行,这种方式实现比较简单,易于操作,并且前一个任务完成会减少后一个任务的检测样本数量,但是如果前一个任务出现错误将会影响后一个任务的检测精度,从而带来“错误传播”问题。联合模型是指能够联合事件抽取中各项子任务之间的联系和依赖关系,能够以“并行”的方式进行,这种方式在模型训练时能够尽量缓解管道模型带来的“错误传播”问题,但是在模型测试时仍然会存在此问题。
在新闻网站中,文本一般以文档形式出现,因此句子级别的事件抽取方法并不适用于此任务,在文档级别的事件抽取任务中,由于一个文档从头到尾的文本跨度较大,并且一个事件的论元可能分布在多个句子中,因此如何解决论元分散问题是文档级别事件抽取任务最重要和急迫需要解决的问题。
发明内容
为解决上述技术问题,本发明提供一种文档级别的中文事件抽取方法,采用基于卷积神经网络和图卷积神经网络的中文文档领域事件抽取方法,将原始文档重构为“图像”结构和图结构,完成事件分类和相应论元分类任务,提高事件抽取精度和模型的泛化能力。
为实现上述技术目的,所采用的技术方案是:一种文档级别的中文事件抽取方法,所述方法包括:
步骤1、从文档中粗筛中文事件数据,对获取到的中文事件数据进行预处理后获取事件数据集;
步骤2、对事件数据集制定不同领域下的典型事件进行标注,得到每一类事件类别的标注数据集;
步骤3、构建中文通用领域事件抽取模型:基于卷积神经网络和图卷积神经网络,对标注数据集进行特征提取后,进行事件类别分类和论元角色抽取。
从文档中粗筛中文事件数据的方法为,设置通用领域事件关键词典,并设置正则表达式过滤不相关事件。
对中文事件数据进行预处理的方法包括对原始数据中不相关事件的筛选、网站中特殊标签的删除。
构建中文通用领域事件抽取模型,具体包括:
步骤3.1:将标注数据集以句子为粒度进行分割,然后将分割后的所有句子依次输入预训练模型中,获得对应的句子向量es;
步骤3.2:将句子以实体为粒度进行分割,然后将分割后的所有实体依次输入预训练模型中,获得对应的实体向量,然后将实体向量再输入至卷积神经网络的Maxpool层对特征进行压缩,得到压缩后实体向量et。
步骤3.3:对于步骤3.2的压缩后实体向量,按照从上到下的顺序依次进行排列成文档向量,使排列后的文档向量行向量和竖向量维度相等,将得到的行向量和竖向量维度相等的文档向量复制2次,得到最终的文档向量Di;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京合立春天科技发展有限公司,未经北京合立春天科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210639099.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种生物防治用白蚁防治诱饵剂
- 下一篇:一种分采分注管柱及分采分注方法