[发明专利]一种文档级别的中文事件抽取方法在审
申请号: | 202210639099.4 | 申请日: | 2022-06-07 |
公开(公告)号: | CN114880437A | 公开(公告)日: | 2022-08-09 |
发明(设计)人: | 王剑;双锴;周冀;安镇宙;于勇涛;杨健 | 申请(专利权)人: | 北京合立春天科技发展有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/211;G06F40/295;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 洛阳公信知识产权事务所(普通合伙) 41120 | 代理人: | 宋晨炜 |
地址: | 100000 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文档 级别 中文 事件 抽取 方法 | ||
1.一种文档级别的中文事件抽取方法,其特征在于,所述方法包括:
步骤1、从文档中粗筛中文事件数据,对获取到的中文事件数据进行预处理后获取事件数据集;
步骤2、对事件数据集制定不同领域下的典型事件进行标注,得到每一类事件类别的标注数据集;
步骤3、构建中文通用领域事件抽取模型:基于卷积神经网络和图卷积神经网络,对标注数据集进行特征提取后,进行事件类别分类和论元角色抽取。
2.如权利要求1所述的一种文档级别的中文事件抽取方法,其特征在于:从文档中粗筛中文事件数据的方法为,设置通用领域事件关键词典,并设置正则表达式过滤不相关事件。
3.如权利要求1所述的一种文档级别的中文事件抽取方法,其特征在于:对中文事件数据进行预处理的方法包括对原始数据中不相关事件的筛选、网站中特殊标签的删除。
4.如权利要求1所述的一种文档级别的中文事件抽取方法,其特征在于:构建中文通用领域事件抽取模型,具体包括:
步骤3.1:将标注数据集以句子为粒度进行分割,然后将分割后的所有句子依次输入预训练模型中,获得对应的句子向量es;
步骤3.2:将句子以实体为粒度进行分割,然后将分割后的所有实体依次输入预训练模型中,获得对应的实体向量,然后将实体向量再输入至卷积神经网络的Maxpool层对特征进行压缩,得到压缩后实体向量et。
步骤3.3:对于步骤3.2的压缩后实体向量,按照从上到下的顺序依次进行排列成文档向量,使排列后的文档向量行向量和竖向量维度相等,将得到的行向量和竖向量维度相等的文档向量复制2次,得到最终的文档向量Di;
步骤3.4:对于步骤3.1中的句子向量es和步骤3.2中的压缩后实体向量et,根据不同句子中实体间和同一句子中实体间的依赖关系构建文档图结构向量Dg;
步骤3.5:对于步骤3.3中的文档向量Di和步骤3.4中的文档图结构向量Dg,分别使用卷积神经网络和图卷积神经网络进行特征提取;
步骤3.6:根据标注过程中事件类别和典型事件的论元,综合步骤3.5中提取的文档向量Di和步骤4中的文档图结构向量Dg的特征,对每个句子进行事件类别分类和论元角色抽取。
5.如权利要求4所述的一种文档级别的中文事件抽取方法,其特征在于:对每个句子进行事件类型判断和论元角色抽取的具体方法为:
步骤3.6.1:将文档图结构向量Dg的特征与文档向量Di的特征经过拼接,然后进行特征筛选,最终将进行筛选后的特征向量输入到卷积神经网络的全连接层后,得到对应的典型事件类别概率,取最大概率为对应的事件类别,完成事件类别分类;
步骤3.6.2、将文档图结构向量Dg经过图卷积神经网络提取的特征,再输入卷积神经网络的Maxpool层,得到候选论元向量,最终将候选论元向量输入到卷积神经网络的全连接层,得到对应的事件类别的论元概率,取最大概率为对应的论元角色,完成论元角色抽取。
6.如权利要求4所述的一种文档级别的中文事件抽取方法,其特征在于:预训练模型可采用BERT模型、Word2Vec模型或ELMO模型。
7.如权利要求4所述的一种文档级别的中文事件抽取方法,其特征在于:使排列后的文档向量行向量和竖向量维度相等的具体方法为:如果压缩后实体向量个数小于压缩后实体向量的行维数,则补充相同维度的0向量,如果压缩的实体向量个数大于压缩后实体向量的行维数,则截断压缩后的实体向量。
8.如权利要求5所述的一种文档级别的中文事件抽取方法,其特征在于:步骤3.6.1中进行特征筛选的方法为,利用Transformer模型、长短期记忆网络和循环神经网络实现。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京合立春天科技发展有限公司,未经北京合立春天科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210639099.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种生物防治用白蚁防治诱饵剂
- 下一篇:一种分采分注管柱及分采分注方法