[发明专利]文本数据的事件抽取方法、装置、电子设备及可读介质有效

专利信息
申请号: 202111558098.9 申请日: 2021-12-20
公开(公告)号: CN113946681B 公开(公告)日: 2022-03-29
发明(设计)人: 李璐;段荣成;张凯;秦瑶;韩立立;王清宇;高欣;洪仁峰;黄威 申请(专利权)人: 军工保密资格审查认证中心;北京中船信息科技有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06F40/284;G06N3/08
代理公司: 北京美智年华知识产权代理事务所(普通合伙) 11846 代理人: 汪永生;李晨露
地址: 100089 北京*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本 数据 事件 抽取 方法 装置 电子设备 可读 介质
【权利要求书】:

1.一种文本数据的事件抽取方法,其特征在于,包括:

将文本数据中的至少一个句子依次输入BERT模型进行预训练;

根据预训练结果生成所述至少一个句子对应的至少一个句子向量集合,句子向量集合中包括多个单词和其对应的词向量、位置向量、句子序号;

获取多个句子向量样本集合;

为所述多个句子向量样本集合中的多个单词样本分配样本标签;

基于带有样本标签的多个单词样本对基于实体注意力机制和动态池化层构建的TextCNN文本分类模型进行训练以生成事件抽取模型;

事件抽取模型中的卷积层在所述至少一个句子向量集合的垂直方向进行卷积计算,生成特征图;

基于所述特征图计算所述至少一个句子向量集合中每个单词对应的注意力权重;

基于所述注意力权重对单词的词向量进行加权计算以生成单词的注意力特征;

事件抽取模型中的池化层基于候选触发词和候选论元的位置动态划分池化区域;

计算每个池化区域的池化特征;

基于池化特征生成多个单词的标签概率矩阵;

基于所述标签概率矩阵生成文本数据对应的事件集合;

其中,注意力权重的计算公式为:

其中,di为句子中第i个单词的上下文中实体单词的个数,hi代表第i个单词是否为实体,如果是实体hi为1,否则为0;

其中,动态划分池化区域的划分点的计算公式为:

其中,hi为第i个候选触发词或候选论元的位置。

2.如权利要求1所述的事件抽取方法,其特征在于,为所述多个句子向量样本集合中的多个单词样本分配样本标签,包括:

为所述多个句子向量样本集合中的多个单词分别分配触发词标签和论元标签。

3.如权利要求1所述的事件抽取方法,其特征在于,基于带有样本标签的多个单词样本对基于实体注意力机制和动态池化层构建的TextCNN文本分类模型进行训练以生成所述事件抽取模型,包括:

将带有样本标签的多个单词样本输入TextCNN文本分类模型;

基于实体注意力机制生成注意力特征;

基于动态池化层生成池化特征;

基于注意力特征和池化特征的计算结果对TextCNN文本分类模型进行训练以生成所述事件抽取模型。

4.如权利要求1所述的事件抽取方法,其特征在于,根据预训练结果生成所述至少一个句子对应的至少一个句子向量集合,包括:

BERT模型基于双向Transformer结构对所述至少一个句子中的多个单词进行编码;

根据编码将单词映射成词向量;

根据多个单词和其对应的词编码、位置编码、句子序号生成句子向量集合。

5.如权利要求1所述的事件抽取方法,其特征在于,基于池化特征生成多个单词的标签概率矩阵,包括:

事件抽取模型中的全连接层基于池化特征对所述至少一个句子向量进行全连接处理;

根据处理结果生成单词对应于触发词标签和论元标签的概率;

基于多个单词对应的触发词标签和论元标签的概率生成标签概率矩阵。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于军工保密资格审查认证中心;北京中船信息科技有限公司,未经军工保密资格审查认证中心;北京中船信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111558098.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top