[发明专利]一种用于互联网文本数据的实体关系联合抽取方法、装置有效

专利信息
申请号: 202111177032.5 申请日: 2021-10-09
公开(公告)号: CN113806493B 公开(公告)日: 2023-08-29
发明(设计)人: 宋怡晨;李爱平;贾焰;周斌;涂宏魁;王晔;江荣;徐锡山;喻承 申请(专利权)人: 中国人民解放军国防科技大学
主分类号: G06F16/33 分类号: G06F16/33;G06F16/35;G06F16/953;G06F40/295;G06F40/30
代理公司: 苏州国诚专利代理有限公司 32293 代理人: 陈松
地址: 410000 湖*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 用于 互联网 文本 数据 实体 关系 联合 抽取 方法 装置
【说明书】:

发明提供了一种用于互联网文本数据的实体关系联合抽取方法、装置,其可以有效提高从无结构文本中提取实体、关系三元组信息的准确率,包括构建实体关系联合抽取模型,具有数据预处理层、向量表示层、分类器层;将互联网文本数据输入数据预处理层,提取词构成词序列,枚举所有可能的词组合作为候选实体,构成候选实体序列;将词序列和候选实体序列输入向量表示层,得到对应的表示向量;将表示向量输入分类器层的实体分类器,得到实体;将实体组合得到实体对,将词序列和实体对的表示向量输入关系分类器,得到实体间关系;训练实体关系联合抽取模型,将互联网文本数据输入训练好的模型,输出实体和实体间关系,得到三元组头实体,关系,尾实体。

技术领域

本发明涉及机器学习中的神经网络领域,具体涉及一种用于互联网文本数据的实体关系联合抽取方法、装置。

背景技术

随着互联网技术的迅速发展普及,每时每秒会产生海量的文本数据,这些文本数据中涵盖着大量的实体、关系等知识,也存在大量的无意义信息。为了快速从非结构化的文本中获取到有效的信息,研究者们提出了信息抽取技术。信息抽取技术突破传统的人工阅读、理解等方式获取语义关系的限制,实现了语义关系的自动抽取。

传统的文本分类和聚类技术可以帮助用户从海量数据汇总筛选出所需要的文档或段落。而因为实体和关系信息文本信息的基础构成,实体和关系抽取技术可以更细粒度的挖掘蕴含在文本中的语义信息,同时可以将抽取到的语义信息表示为结构化的三元组信息。因此,实体和关系抽取不仅是信息抽取的重要组成部分,也是构建大型知识库中必不可少的一步,对于机器翻译、文本摘要、知识库构建、自动问答系统、搜索引擎等领域的发展都有重要的意义。

早期的工作一般将实体和关系抽取作为两个任务以流水线的方式实现,首先进行实体抽取(命名实体识别)主要识别文本中的命名实体,比如人名、地名、机构名称等;然后,通过关系抽取(关系分类)在给定的关系类别下,对文本中标注好的实体对,进行分类。这种流水线的方式使任务变得易于处理,而且每个方法都可以更加灵活;但是,它忽略了这两个任务之间的相关性,需要对每个任务设计一个独立模型,同时前序任务(命名实体识别)的准备性会影响后续任务(关系分类)的准确性,还会导致错误累积。

因此,人们提出了实体关系联合抽取的任务,对于输入的文本,同时抽取文本中的实体和关系,形成结构化的三元组头实体,关系,尾实体进行输出,这种联合抽取的方法可以有效地整合实体和关系的信息。然而早起的联合抽取方法主要是基于特征的结构化学习系统,很大程度上需要依赖于特征工程。随着深度学习方法,特别是神经网络方法的发展,越来越多的联合抽取方法通过用网络学习表示来代替人工特征的构造,基于神经网络的模型取得了相当大的成功。

然而这些基于神经网络的实体关系联合抽取方法大多是需要设计复杂的标签框架,采用标签的方法,一个词只能设计一个标签,无法对重复的情况打标签,这些现有的方法很少方法擅长解决重叠三元组问题,即同一个句子中的多个关系三元组共享同一个实体的问题;大多数方法训练时采用外部的数据直接训练,而在使用模型进行抽取时需要从零开始抽取,关系抽取的结果完全根据实体抽取的结果得来的,这种差异也会导致误差的积累。

发明内容

针对上述问题,本发明提供了一种用于互联网文本数据的实体关系联合抽取方法、装置,其可以有效提高从无结构文本中提取实体、关系三元组信息的准确率。

其技术方案是这样的:一种用于互联网文本数据的实体关系联合抽取方法,其特征在于,包括以下步骤:

步骤1:构建实体关系联合抽取模型,所述实体关系联合抽取模型包括数据预处理层、向量表示层、分类器层;

将从互联网信息中提取的互联网文本数据输入实体关系联合抽取模型的数据预处理层,提取互联网文本数据中的词构成词序列,枚举文本数据中所有可能的词组合作为候选实体,构成候选实体序列;

分别将词序列和候选实体序列输入向量表示层进行处理,得到词序列和候选实体序列的表示向量;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111177032.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top