[发明专利]一种基于图聚合和推理的文本关系抽取方法在审

申请号：	202211067006.1	申请日：	2022-09-01
公开（公告）号：	CN115392257A	公开（公告）日：	2022-11-25
发明（设计）人：	惠孛;张栗粽;田玲;郑旭;董寅;刘耀文;宋乐璇	申请（专利权）人：	电子科技大学
主分类号：	G06F40/30	分类号：	G06F40/30;G06F40/211;G06F16/35;G06F16/36;G06N3/04;G06N5/04
代理公司：	山东诺诚智汇知识产权代理事务所(普通合伙) 37309	代理人：	金峰
地址：	611731 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于聚合推理文本关系抽取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于图聚合和推理的文本关系抽取方法，提出了一个基于复杂语义信息的文档级图，这是一个异构的过程包含提及节点和句子节点的图形，用于集成文档的丰富语义信息获取实体表示。本发明提出了一种实体级图获取方法，以发现长距离跨句子实体对的一些关系。然后，我们使用注意机制融合实体全局表示、实体推理表示和实体初始表示信息，以提取实体对之间的关系。

技术领域

本发明属于自然语言处理领域，具体涉及一种基于图聚合和推理的文本关系抽取方法。

背景技术

关系抽取是识别文本中一对命名实体之间的语义关系。关系抽取在通过给定文本的未知关系事实构建知识图谱方面发挥着重要作用。以前的工作侧重于句子级的关系抽取，它提取单个句子中实体之间的关系。在现实世界中应用程序，大量关系，例如来自维基百科文章和生物医学的关系事实文学，跨越文章中的多个句子。根据对维基百科语料库的分析，至少40.7％的关系依赖于要提取的文档中多个句子的信息。因此，有必要在文档级别提取关系。

以前的研究利用关系抽取来缩短文本跨度。比如说新提出的DocRED数据集，其中包含许多带有大规模人工注释的文档，推动了句子级关系抽取向文档级关系抽取发展。为了充分利用文档的复杂语义信息，最近的工作设计文档级图并致力于提出了基于图神经网络的模型。比如有人拆分文档级图分成两个有向无环图(DAG)，并为每个DAG使用图LSTM来获得每个单词的上下文表示。也有人提出了一种面向边缘的模型，它构造了一个具有不同类型节点和边的文档级图，以获得全局关系分类的表示。同时也有将文档图定义为潜在变量并基于结构化注意力进行诱导以提高文档级关系的性能，通过优化文档图的结构来提取模型。然而，这些发明只是平均提及的嵌入以获得实体嵌入并将它们输入分类器以获得关系标签。此外，每个实体在不同的实体对中具有相同的表示，这可能会引入来自无关上下文的噪音。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于图聚合和推理的文本关系抽取方法解决了现有的文档关系抽取过程中不能充分利用文档的语义信息和跨句子实体对之间关系的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种基于图聚合和推理的文本关系抽取方法，包括以下步骤：

S1、通过编码器获取文档的实体初始表示，进而构建文档级图；

S2、根据文档级图中边的类型，通过l层堆叠的关系图卷积神经网络对文档级图进行卷积，生成实体全局表示；

S3、根据文档级图中实体全局表示生成实体级图，进而生成实体最终表示；根据实体最终表示获得目标关系表示和上下文关系表示；

S4、根据目标关系表示和上下文关系表示，通过前馈神经网络进行预测，得到关系预测结果，完成文本关系抽取。

进一步地：所述步骤S1包括以下分步骤：

S11、将BERT作为编码器获取文档的嵌入，并通过logsumexp池化层获得文档的实体初始表示；

其中，得到所述文档的嵌入H的表达式具体为：

H＝[h₁,h₂,…,h_k2]＝BERT([w₁,w₂,…,w_k1])

式中，w_k1为文档D的第k1个单词，h_k2为第k2层BERT输出获得的隐藏状态序列；