[发明专利]信息分类抽取方法、装置、计算机设备和存储介质有效

专利信息
申请号: 201910844517.1 申请日: 2019-09-06
公开(公告)号: CN110765265B 公开(公告)日: 2023-04-11
发明(设计)人: 刘康龙;徐国强 申请(专利权)人: 平安科技(深圳)有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06F16/31;G06F40/211;G06F40/289;G06F40/30
代理公司: 华进联合专利商标代理有限公司 44224 代理人: 杨欢
地址: 518033 广东省深圳市福田区福*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 信息 分类 抽取 方法 装置 计算机 设备 存储 介质
【说明书】:

本申请涉及基于分类器的一种信息分类抽取方法、装置、计算机设备和存储介质。所述方法包括:获取待分类信息;对待分类信息进行分词处理,得到多个文本块;将多个文本块输入至已训练的分类器,对多个文本块进行分类,确定待分类信息的目标事件类别和多个事件元素;根据目标事件类别和事件元素提取对应的事件元素参数,并输出目标事件类别和多个事件元素以及相应的事件元素参数;根据多个事件元素和相应的事件元素参数生成目标事件类别对应的事件图谱数据。采用本方法能够够准确有效地对事件信息进行分类并抽取关键事件信息。

技术领域

本申请涉及计算机技术领域,特别是涉及一种信息分类抽取方法、装置、计算机设备和存储介质。

背景技术

随着互联网技术的迅速发展,世界各地随时可能会发生一些新闻事件,其中一些新闻事件信息具有重要的研究价值。通过人为去获取事件信息中的一些关键信息带来的工作量太大,因此出现了一些从自然语言文本中提取关键事件信息的方式。

现有的方式大多数利用各种特征引入记忆向量和矩阵,引入更多的过渡弧,使用句子级顺序RNN建模方式和CRF算法来保留更多的上下文信息。还有的方式是采用在文档级中寻求特征。而句子级顺序建模方式在捕获非常远距离依赖效率低下,基于特征的方式需要繁重的人工干预,很大程度上影响了模型的性能,无法准确有效地对事件进行关联建模,事件信息的识别和分类准确性不高。因此,如何准确有效地对事件信息进行分类并抽取关键信息成为目前需要解决的技术问题。

发明内容

基于此,有必要针对上述技术问题,提供一种能够准确有效地对事件信息进行分类并抽取关键事件信息的信息分类抽取方法、装置、计算机设备和存储介质。

一种信息分类抽取方法,所述方法包括:

获取待分类信息;

对待分类信息进行分词处理,得到多个文本块;

将所述多个文本块输入至已训练的分类器,对多个文本块进行分类,确定所述待分类信息的目标事件类别和多个事件元素;

根据所述目标事件类别和事件元素提取对应的事件元素参数,并输出所述目标事件类别和多个事件元素以及相应的事件元素参数;

根据所述多个事件元素和相应的事件元素参数生成所述目标事件类别对应的事件图谱数据。

在其中一个实施例中,所述待分类信息包括标题信息,所述对待分类信息进行分词处理的步骤包括:根据所述标题信息匹配获取对应的定义表;根据所述定义表对所述待分类信息进行词性标注,并根据词性标签进行分词,得到多个文本块;根据分词后的多个文本块的词性标签对多个文本块标记优先等级;删除所述优先等级未达到预设等级值的文本块,利用优先等级达到预设等级值的文本块得到过滤后的文本块。

在其中一个实施例中,所述分类器包括多个网络层,所述对多个文本块进行分类的步骤包括:将所述多个文本块输入至所述分类器,通过所述分类器的输入层提取出多个文本块对应的文本向量;将多个文本向量作为关系分析网络层的输入,通过所述关系分析网络层对多个文本向量进行特征识别,提取文本向量的上下文特征,得到第一提取结果;将所述第一提取结果作为图卷积网络层的输入,通过所述图卷积网络层将文本向量转换为句法图结构,根据所述句法图结构提取多个文本向量的依赖关系,得到第二提取结果;将所述第二提取结果作为自注意力网络层的输入,根据文本向量的上下文特和依赖关系分析多个事件元素的关联关系和权重,生成第三提取结果;将所述第三提取结果输入至分类层,通过所述分类层对所述第三提取结果进行分类得到对应的事件类别,以及多个事件元素和相应的事件元素参数,生成分类结果,通过输出层对分类结果进行加权后输出。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910844517.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top