[发明专利]一种面向中文文本的端到端实体关系联合抽取方法在审
申请号: | 201910659195.3 | 申请日: | 2019-07-22 |
公开(公告)号: | CN110472235A | 公开(公告)日: | 2019-11-19 |
发明(设计)人: | 徐汕;胡博钦;张晶亮;梁炬;谢水庚;郝志强;职亮亮 | 申请(专利权)人: | 北京航天云路有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N3/04 |
代理公司: | 11210 北京纽乐康知识产权代理事务所(普通合伙) | 代理人: | 刘艳艳<国际申请>=<国际公布>=<进入 |
地址: | 100039 北京市海淀区西*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 中文文本 实体关系 抽取 构建 端到端 自动化 非结构化文本 三元组信息 标签序列 人工标注 人工审核 数据标注 词向量 三元组 数据集 联合 分词 建模 工业产品 学习 句子 标注 图谱 应用 中文 | ||
本发明公开了一种面向中文文本的端到端实体关系联合抽取方法,该方法从百度百科中获得工业产品相关数据,再进行人工标注和人工审核;对标注好的数据集进行分词,包括其中的句子和实体关系信息,使用Word2Vec方法构建词向量,构建端到端的深度学习模型来生成标签序列,所述端到端的深度学习模型为CNN‑LSTM模型。本发明的面向中文文本的端到端实体关系联合抽取方法首次将深度学习应用在中文文本的实体‑关系联合抽取问题中,使用的数据标注方法能够直接对三元组进行建模,从而从非结构化文本中提取出三元组信息,能够应用于海量中文文本的知识自动化抽取,为中文知识图谱自动化构建提供基础。
技术领域
本发明涉及自然语言处理技术领域,具体来说,涉及一种面向中文文本的端到端实体关系联合抽取方法。
背景技术
实体和关系抽取是信息抽取的关键任务,指的是从非结构化文本中提取出实体并识别它们的语义关系。作为知识库构建中的关键步骤,实体及其关系的抽取方法主要分为两类:一类是串联抽取方法,另一类是联合抽取方法。其中,传统的串联抽取就是首先进行实体抽取,然后进行关系识别。这种串联的方法易于实现,而且各个模块灵活度比较高。但是这种管道方法没有考虑到实体识别和关系预测的相关性,而且实体识别的结果会影响到关系识别的结果,所以容易产生误差累积。
联合抽取方法使用一个模型同时实现实体抽取和关系抽取,能更好的整合实体及其关系之间的信息。而且现有的联合抽取方法也存在诸多问题,比如:大部分的联合抽取模型需要经过复杂的特征工程,由人工参与构建特征,并且严重依赖于已有的NLP工具。其中“实体提及和关系的增量联合提取”(计算协会第52届年会论文集(第一卷:长篇论文),402–412页)及“用表格表示的实体与关系联合提取模型”(2014年自然语言处理经验方法会议论文集,1858-1869页)是基于结构预测方法;麻省理工学院出版社出版的《通过线性规划公式进行实体和关系识别的全局推理》(Global Inference for Entity and RelationIdentification via a Linear Programming Formulation,)及“精细意见提取的联合推理”(计算语言学协会第51届年会论文集(第一卷:长篇论文),1640-1649页)使用整数线性规划法;“基于纸牌金字塔解析的实体与关系联合提取”(第14届计算自然语言学习会议论文集,203-212页)中提出纸牌金字塔解析法;“用图形模型方法联合识别实体和提取百科全书文本中的关系”(Coling 2010:Posters,1399–1407页)、“实体、关系和共指的联合推理”(2013年自动化知识库建设专题讨论会论文集,1-6页)等使用全局的概率图模型。
近年来,随着深度学习在许多NLP任务上的成功,神经网络也被广泛应用于实体、关系事实的提取。2016年“基于LSTM的序列和树结构端到端关系提取”(计算语言学协会第54届年会论文集)为了减少人工抽取特征工作,提出了基于神经网络的端到端模型,因在模型实现过程中分开抽取实体及其关系而导致信息冗余等问题。“用于联合实体和关系提取的表格填充多任务递归神经网络”(Proceedings of COLING,2537–2547页)、“基于全局优化的端到端神经关系提取”(2017年自然语言处理经验方法会议论文集,1730-1740页)等也利用端到端的模型将关系抽取问题转化为表格填充问题。但是目前绝大多数方法都是以英文数据为基础的,在中文数据方面,利用深度学习对实体-关系联合抽取的研究还很匮乏。
发明内容
针对相关技术中的上述技术问题,本发明提出一种面向中文文本的端到端实体关系联合抽取方法,能够克服现有技术的上述不足。
为实现上述技术目的,本发明的技术方案是这样实现的:
一种面向中文文本的端到端实体关系联合抽取方法,包括以下步骤:
从百度百科中获得工业产品相关数据,再进行人工标注和人工审核;
对标注好的数据集进行分词,包括其中的句子和实体关系信息,使用Word2Vec方法构建词向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航天云路有限公司,未经北京航天云路有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910659195.3/2.html,转载请声明来源钻瓜专利网。