[发明专利]基于超图卷积神经网络的文档级实体关系抽取方法及装置在审

专利信息
申请号: 202111241687.4 申请日: 2021-10-25
公开(公告)号: CN114118088A 公开(公告)日: 2022-03-01
发明(设计)人: 刘杰;华浩宇;金泰松 申请(专利权)人: 首都师范大学;厦门大学
主分类号: G06F40/295 分类号: G06F40/295;G06F16/36;G06N3/04;G06N3/08
代理公司: 北京易捷胜知识产权代理事务所(普通合伙) 11613 代理人: 李会娟
地址: 100083 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 超图 卷积 神经网络 文档 实体 关系 抽取 方法 装置
【说明书】:

发明涉及一种基于超图卷积神经网络的文档级实体关系抽取方法及装置,所述方法包括:针对三元组,采用HG‑GCNN模型,获取三元组所对应的超图结构;针对超图结构,获取文档t中每个单词在待预测关系的实体对中分别每个实体下的单词的向量;基于文档中每个单词在待预测关系的实体对中分别每个实体下的单词的向量,获取第一实体e1和第二实体e2的实体关系;HG‑GCNN模型为预先建立并训练的包括有节点信息构造层、超图构造层、GCNN编码层、推理判断层的模型;节点信息构造层、超图构造层执行获取超图结构的过程,GCNN编码层执行获取文档中每个单词在每个实体下的单词的向量的过程,推理判断层执行获取预测结果的过程。

技术领域

本发明涉及人工智能自然语言处理技术领域,尤其涉及基于超图卷积神经网络的文档级实体关系抽取方法及装置。

背景技术

随着人工智能在自然语言处理领域应用的普及,机器翻译、篇章理解、知识图谱等成了炙手可热的研究课题。这些领域的研究都依赖于一个重要的研究对象:实体关系抽取,即从文档中挖掘实体对的关系信息。实体关系抽取的重要意义,主要表现在:实体关系抽取的结果可以应用于自动扩充和构建知识图谱,为用户提供检索信息的知识库。实体关系抽取的结果可以作为构建自动问答系统的数据来源,同时可以为机器翻译、篇章理解提供理论支持。文档级实体关系抽取的复杂性要远大于在语句级别的实体关系抽取,当前面临的主要的研究难点主要表现在以下几个方面:语言表达的多样性对文档级实体关系抽取中实体的识别带来了很大的难度;在篇章级别的实体关系抽取过程中,往往引用的数目更多,如何关联这些引用间的联系,避免统一实体不同引用间的噪声影响是研究的痛点之一。篇章结构的复杂性对文档级实体关系抽取中篇章的理解带来了很大的难度,由于文章复杂的写作手法和表达方式,往往实体之间的联系被贯穿在文章的前后文当中,如何有效用模型表达文档的篇章结构是研究的另一痛点。

传统的关系抽取模型主要有两类,一是基于序列的关系抽取模型:基于单词的序列关系进行关系的建模;另一类是基于依赖的关系抽取模型:基于关系依赖来对实体关系进行建模。

基于序列的关系抽取方法通过不同级别的网络去抽取不同级别的特征,最后通过将不同级别的特征相关联实现实体对之间的关系分类。即针对句内和句间关系使用不同的模型,通过合并局部和全局的特征信息对实体关系进行预测。现有的一种使用CNN去编码句内信息,通过最大熵来编码整合句子间的信息,分而治之的去处理不同级别的特征。但是这种方法割裂了文档结构,如何用统一的模型解决文档抽取的句内句间关系成为了研究的一大难点。

现有技术中还有通过LSTM去编码长文本之间的关系,统一模型的结构。将原本的文本视作一个序列,通过长短期记忆网络去编码其结构,通过注意力机制去提取句子的重要信息。这种做法虽然兼顾了句内和句间联系,但是没有将文本间的依赖嵌入其中,有一定的局限性,而且参数过多,训练的时候经常出现梯度消失问题,模型效果相对较差。

发明内容

(一)要解决的技术问题

鉴于现有技术的上述缺点、不足,本发明提供一种基于超图卷积神经网络的文档级实体关系抽取方法及装置,其解决了现有技术中只考虑到单一的文档图结构可能无法得到完成的全局信息导致文档级实体关系抽取不准确的技术问题。

(二)技术方案

为了达到上述目的,本发明采用的主要技术方案包括:

第一方面,本发明实施例提供一种基于超图卷积神经网络的文档级实体关系抽取方法,包括:

S1、针对三元组,采用HG-GCNN模型,获取所述三元组所对应的超图结构;

其中,所述三元组中包括:文档t;

所述文档t中待预测关系的第一实体e1和第二实体e2

其中文档t中包括n个单词;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于首都师范大学;厦门大学,未经首都师范大学;厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111241687.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top