[发明专利]基于头实体预测的实体和关系联合抽取方法有效
申请号: | 202010589302.2 | 申请日: | 2020-06-24 |
公开(公告)号: | CN111832293B | 公开(公告)日: | 2023-05-26 |
发明(设计)人: | 陈彦如;王浩;陈硕;石静;高明珠;林幼玲;宋岱松;邹可欣;陈良银 | 申请(专利权)人: | 四川大学 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/216 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610065 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 实体 预测 关系 联合 抽取 方法 | ||
本发明公开了一种基于头实体预测的实体和关系联合抽取方法。本发明通过只将关系融入尾实体标签的标注策略,将实体和关系抽取任务分解为两个序列标注任务,即头实体识别标注和尾实体识别标注,并且将头实体的向量作为尾实体标注识别任务的输入,用先验概率的思想提高模型的效果。尾实体的标注标签在完成尾实体识别的同时,确定实体对间的关系,从而解决了存在实体重叠现象时抽取不完全的问题和存在实体嵌套时传统方法无法抽取的问题。
一、技术领域
本发明涉及自然语言处理领域,尤其涉及信息抽取,具体是一种基于头实体预测的实体和关系联合抽取方法。
二、背景技术
现今是知识经济时代,随着互联网技术的蓬勃发展,社会信息化程度的不断提高,数据资源呈爆炸式增长,随之而来的是海量文本数据的积累。如何从大量的非结构化文本数据资源中迅速并准确地获取需要的信息,引起越来越多人的关注,而实体和关系抽取便是应运而生的一种技术手段。实体和关系抽取是指从非结构化文本中抽取实体对以及实体对之间的关系,实体对是指在一句或者一段文本中出现的两个可能存在关系的实体,实体包括命名性指称、名词性指称和代词性指称;关系是指两个或者多个实体间存在的某种联系。
实体和关系抽取包含了命名实体识别(named entity recognition,NER)和关系抽取(relation extraction,RE)两个子任务。命名实体识别是指识别出文本中的实体以及该实体的类别,关系抽取是指识别出两个或多个实体之间存在的语义关系。通常情况下,实体和关系抽取的结果使用三元组进行表示,即采用“(e1,r,e2)”的形式进行表示,其中e1和e2表示两个实体,r表示两个实体之间的关系,为了方便区分e1和e2,本文中将e1称之为头实体(head entity),将e2称之为尾实体(tail entity)。
为了实现从非结构文本中进行实体和关系的抽取,先前多数研究者是将目标分别集中于实体识别和关系分类,不断提高实体识别的准确率和实体对间关系判断的准确率进而提高实体和关系抽取的效果。首先是有学者提出了基于模板匹配的实体和关系抽取方法,基于模板的方法需要相关领域专家首先设定具有一定规则的模板,然后将非结构化文本与该模板进行匹配,将符合该模板的信息提取出来,进而完成关系的抽取。其中比较著名的有RESS系统(Aone C,Ramos-Santacruz M.REES:a large-scale relation and eventextraction system[C]//Proceedings of the sixth conference on Applied naturallanguage processing.Association for Computational Linguistics,2000:76-83)和GATE系统(Cunningham H,Maynard D,Bontcheva K,et al.GATE:an architecture fordevelopment of robust HLT applications[C]//Proceedings of the 40th annualmeeting on association for computational linguistics.Association forComputational Linguistics,2002:168-175)。基于模板的实体和关系抽取方法,作为早期的实体和关系抽取方法,在很大程度上减轻了人员的工作量,提高了效率,但是其效果严重依赖于人工构建的模板,并且迁移性差。为了解决基于模板的方法的实体和关系抽取存在的问题,Yu等人(Yu X,Lam W.Jointly identifying entities and extractingrelations in encyclopedia text via a graphical model approach[C]//Proceedingsof the 23rd International Conference on Computational Linguistics:Posters.Association for Computational Linguistics,2010:1399-1407.)在首次提出实体和关系的联合抽取模型,即通过参数共享的方法,将实体识别和关系判断联系起来,但是仍然依赖人工构建特征,特征构建时会依赖外部自然语言处理工具,而后,Katiyar等人(Katiyar A,Cardie C.Going out on a limb:Joint extraction of entity mentionsand relations without dependency trees[C]//Proceedings of the 55th AnnualMeeting of the Association for Computational Linguistics(Volume1:LongPapers).2017:917-928.)在提出了一种结合注意力机制和双向LSTM的实体和关系抽取模型,该模型减少对自然语言处理工具包的依赖和人工特征的提取,直接通过神经网络进行实体和关系的抽取,但是当语料存在实体重叠现象的时候,会存在抽取不完全的问题。最近,Zheng等人(Zheng S,Wang F,Bao H,etal.Joint extraction of entities andrelations based on a novel tagging scheme[C]//Proceedings of the 55th AnnualMeeting of the Association for Computational Linguistics(Volume 1:LongPapers).2017:1227-1236.)提出了一种利用特殊的标注策略将关系融入到标签中,完成将实体识别和关系判断这两个任务整合成一个任务。这不仅能够充分利用实体识别和关系判断之间的内在联系,还可以只需完成对原输入文本作序列标注建模任务,从而完成对实体和关系的抽取。但是,当语料存在实体重叠现象的时候,该标注策略将会发生标签冲突的问题。这可以通过就近配对原则解决标签冲突问题,然而当语料存在实体重叠现象时,就近匹配原则同样会导致存在抽取不完全的问题。上述这些方法都只考虑到每个实体只存在于一个三元组中的情况,没有考虑一个实体可能同时出现在多个三元组中,即实体重叠的现象。如“金一先生是出生于海宁市的一名作家”中包含了出生地、职业关系,这句话实际上包含了“(金一,出生地,海宁市)和(金一,职业,作家)”两个三元组,而采用上述方法却只能抽取出其中的一个三元组,即存在三元组抽取不完全的问题。并且实体重叠现象并不是特例,而是普遍存在。本文对中文的百度知识抽取数据集和英文NYT数据集做了分析,结果发现实体重叠情况在这两种数据集中分别占53.8%和24.8%,分别如图1和图2所示。在中文的百度知识抽取数据集中超过半数的语料中都存在着实体重叠的现象。因此,对中文的实体和关系抽取时,语料中出现的实体重叠现象更加不能被忽略。而在语料存在实体重叠现象的时候,上述关系抽取模型和算法将无法完全抽取出语料中可能存在的三元组,这必将造成信息的丢失。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010589302.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种远程水位识别RTU
- 下一篇:组合式计量称重装置