[发明专利]基于超图卷积神经网络的文档级实体关系抽取方法及装置在审
申请号: | 202111241687.4 | 申请日: | 2021-10-25 |
公开(公告)号: | CN114118088A | 公开(公告)日: | 2022-03-01 |
发明(设计)人: | 刘杰;华浩宇;金泰松 | 申请(专利权)人: | 首都师范大学;厦门大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/36;G06N3/04;G06N3/08 |
代理公司: | 北京易捷胜知识产权代理事务所(普通合伙) 11613 | 代理人: | 李会娟 |
地址: | 100083 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 超图 卷积 神经网络 文档 实体 关系 抽取 方法 装置 | ||
1.一种基于超图卷积神经网络的文档级实体关系抽取方法,其特征在于,包括:
S1、针对三元组,采用HG-GCNN模型,获取所述三元组所对应的超图结构;
其中,所述三元组中包括:文档t;
所述文档t中待预测关系的第一实体e1和第二实体e2;
其中文档t中包括n个单词;
所述n个单词中至少有2个实体;
S2、针对所述超图结构,获取文档t中每个单词在所述待预测关系的实体对中分别每个实体下的单词的向量;
S3、基于文档中每个单词在所述待预测关系的实体对中分别每个实体下的单词的向量,获取所述第一实体e1和第二实体e2的实体关系;
其中,所述HG-GCNN模型为预先建立并训练的包括有节点信息构造层、超图构造层、GCNN编码层、推理判断层的模型;
所述节点信息构造层、超图构造层执行获取超图结构的过程,所述GCNN编码层执行获取文档中每个单词在每个实体下的单词的向量的过程,所述推理判断层执行获取预测结果的过程。
2.根据权利要求1所述的方法,其特征在于,S1具体包括:
所述HG-GCNN模型的节点信息构造层,针对三元组中文档t中每一个段落中单词分别距离第一实体e1和第二实体e2的距离,获取图结构的节点信息;
所述HG-GCNN模型的超图构造层,针对文档t采用预先设定的构图策略构建超图结构。
3.根据权利要求2所述的方法,其特征在于,
所述HG-GCNN模型的节点信息构造层,针对三元组中文档t中每一个段落中单词分别距离第一实体e1和第二实体e2的距离,获取图结构的节点信息,具体包括:
针对三元组中文档t中任一段落,判断所述段落中是否具有第一实体e1的引用,若没有,则确定所述段落中每一单词对于第一实体e1的重要程度为0;若有,则将所述段落中任一单词分别与所述段落中所有第一实体e1的引用构造一组超边,所述段落中任一单词对于第一实体e1的重要程度为所述段落中任一单词分别与所述段落中所有第一实体e1的引用之间的距离的倒数和;
针对三元组中文档t中任一段落,判断所述段落中是否具有第二实体e2的引用,若没有,则确定所述段落中每一单词对于第二实体e2的重要程度为0;若有,则将所述段落中任一单词分别与所述段落中所有第二实体e2的引用构造一组超边,所述段落中任一单词对于第二实体e2的重要程度为所述段落中任一单词分别与所述段落中所有第二实体e2的引用之间的距离的倒数和;
将所述三元组中文档t中任一段落中的任一单词分别对于第一实体e1和第二实体e2的重要程度作为所述任一单词所对应的节点的信息。
4.根据权利要求3所述的方法,其特征在于,所述HG-GCNN模型的超图构造层,采用预先设定的构图策略构建超图结构,具体包括:
所述超图结构,包括:语法边、引用边、邻词边、邻居边、自反边;
所述语法边为:文档t中的每一个句子中任一单词和其有语法关联关系的单词所连接的超边;
所述引用边为:文档t中的实体和其相应的引用构造的一组超边;
所述邻词边为:文档t中的每一个句子,句中单词所构造的超边;
所述邻句边为:文档t中的每一段落,段落中的所有的实体构造的一组超边;
所述自反边为:文档t中的每一单词,关联自身的超边;
其中,所述超图结构中,任一超边和与所述超边具有关联关系的单词之间的关系值设置为1,任一超边和与所述超边没有关联关系的单词之间的关系值设置为0。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于首都师范大学;厦门大学,未经首都师范大学;厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111241687.4/1.html,转载请声明来源钻瓜专利网。