[发明专利]文本数据的事件抽取方法、装置、电子设备及可读介质有效
申请号: | 202111558098.9 | 申请日: | 2021-12-20 |
公开(公告)号: | CN113946681B | 公开(公告)日: | 2022-03-29 |
发明(设计)人: | 李璐;段荣成;张凯;秦瑶;韩立立;王清宇;高欣;洪仁峰;黄威 | 申请(专利权)人: | 军工保密资格审查认证中心;北京中船信息科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/284;G06N3/08 |
代理公司: | 北京美智年华知识产权代理事务所(普通合伙) 11846 | 代理人: | 汪永生;李晨露 |
地址: | 100089 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 数据 事件 抽取 方法 装置 电子设备 可读 介质 | ||
本申请涉及一种文本数据的事件抽取方法、装置、电子设备及计算机可读介质。该方法包括:将文本数据中的至少一个句子依次输入BERT模型进行预训练;根据预训练结果生成所述至少一个句子对应的至少一个句子向量集合,句子向量集合中包括多个单词和其对应的词向量、位置向量、句子序号;将所述至少一个句子向量集合输入事件抽取模型中以生成至少一个事件集合;其中,所述事件抽取模型基于实体注意力机制和动态池化层生成。本申请涉及的文本数据的事件抽取方法、装置、电子设备及计算机可读介质,能够减少无关信息对事件抽取任务产生的干扰,一次性的由文本数据的句子中抽取多个有价值的信息,提升信息抽取的准确度。
技术领域
本申请涉及计算机信息处理领域,具体而言,涉及一种文本数据的事件抽取方法、装置、电子设备及计算机可读介质。
背景技术
随着自然语言处理领域的发展以及网络信息的飞速增长,人们获取个性化信息的难度持续增加,事件抽取成为信息抽取领域的热门研究分支,其可以为知识库构建、问答以及语言理解任务提供有效的结构化信息。事件抽取的任务是从非结构化的文本中抽取出事件元素并组织成结构化的形式。事件抽取任务包括事件识别和事件论元抽取两个子任务。事件识别,即识别出文本中的事件触发词并对触发词进行分类;事件论元抽取,即从句子中抽取出事件触发词对应的事件论元并分类。
现有技术中,专利CN113761122A、CN113761936A、CN111897908A、CN113407660B、CN107122416B均从不同的角度描述了时间抽取方法,但是现有技术中的事件抽取方法所使用的池化层只能捕捉句子中最重要的信息,在考虑多事件句子时可能会遗漏有价值的信息,进而导致准确率、召回率较低。
因此,需要一种新的文本数据的事件抽取方法、装置、电子设备及计算机可读介质。
在所述背景技术部分公开的上述信息仅用于加强对本申请的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
有鉴于此,本申请提供一种文本数据的事件抽取方法、装置、电子设备及计算机可读介质,能够减少无关信息对事件抽取任务产生的干扰,一次性的由文本数据的句子中抽取多个有价值的信息,提升信息抽取的准确度。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请的一方面,提出一种文本数据的事件抽取方法,该方法包括:将文本数据中的至少一个句子依次输入BERT模型进行预训练;根据预训练结果生成所述至少一个句子对应的至少一个句子向量集合,句子向量集合中包括多个单词和其对应的词向量、位置向量、句子序号;将所述至少一个句子向量集合输入事件抽取模型中以生成至少一个事件集合;其中,所述事件抽取模型基于实体注意力机制和动态池化层生成。
在本申请的一种示例性实施例中,还包括:获取多个句子向量样本集合;为所述多个句子向量样本集合中的多个单词样本分配样本标签;基于带有样本标签的多个单词样本对基于实体注意力机制和动态池化层构建的TextCNN文本分类模型进行训练以生成所述事件抽取模型。
在本申请的一种示例性实施例中,为所述多个句子向量样本集合中的多个单词样本分配样本标签,包括:为所述多个句子向量样本集合中的多个单词分别分配触发词标签和论元标签。
在本申请的一种示例性实施例中,基于带有样本标签的多个单词样本对基于实体注意力机制和动态池化层构建的TextCNN文本分类模型进行训练以生成所述事件抽取模型,包括:带有样本标签的多个单词样本输入TextCNN文本分类模型;基于实体注意力机制生成注意力特征;基于动态池化层生成池化特征;基于注意力特征和池化特征的计算结果对TextCNN文本分类模型进行训练以生成所述事件抽取模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于军工保密资格审查认证中心;北京中船信息科技有限公司,未经军工保密资格审查认证中心;北京中船信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111558098.9/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置