[发明专利]一种实体关系联合抽取方法及系统有效

申请号：	201911308937.4	申请日：	2019-12-18
公开（公告）号：	CN111160008B	公开（公告）日：	2022-03-25
发明（设计）人：	蔡毅;陈峰	申请（专利权）人：	华南理工大学
主分类号：	G06F40/211	分类号：	G06F40/211;G06F40/295;G06N3/04;G06N3/08
代理公司：	广州市华学知识产权代理有限公司 44245	代理人：	裴磊磊
地址：	510640 广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种实体关系联合抽取方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种实体关系联合抽取方法，包括步骤：对输入句子进行数据预处理；将输入句子中的每个词映射成对应的词向量；将得到的词向量输入到基于长短期记忆网络和图卷积神经网络的实体关系联合抽取模型中进行训练；采用训练后的LSTM‑GCN模型进行实体抽取和关系抽取。本发明通过LSTM和GCN可以同时捕捉到输入句子的顺序信息和区域信息，更好地表示每个词，提升了实体抽取和关系抽取的性能，具有一定的实用性。

技术领域

本发明涉及深度学习算法应用技术领域，尤其涉及一种实体关系联合抽取方法及系统。

背景技术

随着数字时代的兴起，社交媒体、文章、新闻等形式的信息爆炸式增长。这些数据大部分都是非结构化形式的，人工管理和有效利用这些信息是很繁琐、乏味和费时费力的。因此，信息爆炸以及对更复杂有效信息的处理工具的需求，使得人们对自动信息抽取的技术越来越关注。信息抽取系统以自然语言文本作为输入，从文本中识别出相关的知识要素(通常是预先定义好的类型)，并生成由特定标准指定的结构化信息，这些信息与特定的应用程序相关。最近几年，信息抽取领域快速发展，研究学者提出许多方法使信息抽取过程自动化。然而，由于Web数据具有异构性、非结构化等特点，自动信息抽取仍然存在许多具有挑战性的研究问题。

信息抽取一般包括两个普遍存在并且紧密相关的子任务：命名实体识别和关系抽取。现有技术通常使用基于流水线的方法来处理这两个子任务，然而这种分离的框架会导致错误传播的问题，并且忽略了两个子任务之间的相关性。最近的研究提出使用联合方法来同时进行命名实体识别和关系抽取，以解决上述问题。

现有技术提出了一种抽取方法，该方法将每个词转化为一个预定义类型的标签的形式，在预测阶段中，预测出每个词对应的标签，根据标签和三元组中每个词的对应关系，得到句子中存在的实体关系三元组。但是所述方法无法解决关系重叠的问题，而关系重叠的现象在数据集中普遍存在。因此，急需一种实体关系联合抽取方法来解决关系重叠的问题。

发明内容

本发明的目的在于解决现有技术中的关系重叠问题，提供一种实体关系联合抽取方法。

本发明的目的通过以下技术方案实现：

一种实体关系联合抽取方法，包括步骤：

对输入句子进行数据预处理；

将输入句子中的每个词映射成对应的词向量；

将得到的词向量输入到基于长短期记忆网络和图卷积神经网络(LSTM-GCN)的实体关系联合抽取模型中进行训练；

采用训练后的LSTM-GCN模型进行实体抽取和关系抽取。

具体地，所述预处理包括实体标注、单词映射、图的构造。

更进一步地，所述实体标注采用BIO标注机制进行标注，每个实体包含有一个或多个单词，为每个单词打上标签，这样就知道每个实体的开始结束位置以及实体类型。

更进一步地，所述单词映射表示将输入句子中的每个单词映射成对应的ID。

更进一步地，所述图的构造通过依存解析器为输入句子构造一棵依存树，再采用邻接矩阵表示该依存树。