[发明专利]一种基于概率图的实体联合标注关系抽取方法和系统有效
申请号: | 202210004530.8 | 申请日: | 2022-01-04 |
公开(公告)号: | CN114298052B | 公开(公告)日: | 2023-06-20 |
发明(设计)人: | 曹建军;皮德常;翁年凤;胥萌;丁鲲;袁震;江春 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/216;G06F18/241;G06N3/0464;G06N3/08 |
代理公司: | 江苏瑞途律师事务所 32346 | 代理人: | 计璐 |
地址: | 210007 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 概率 实体 联合 标注 关系 抽取 方法 系统 | ||
本发明公开了一种基于概率图的实体联合标注关系抽取方法和系统,属于自然语言处理技术领域。包括进行特征提取;进行实体抽取:将实体抽取任务转为序列标注任务,将所述序列输入第一模型中得到第一输出特征,对所述第一输出特征激活后得到预测序列,通过设定的阈值得到实体的开始和结束位置;根据就近原则对主体和客体进行匹配,标记相近的实体头部和尾部进行截取;进行关系分类:随机抽取实体对,并根据所述第一模型的中间特征,生成第二输出特征,将所述第二输出特征输入第二模型中得到对应分类关系。本发明考虑到两个子任务之间的相关性,使得抽取任务的结果不过分依赖于实体抽取的结果,避免误差累积的问题,以及关系重叠。
技术领域
本发明属于自然语言处理技术领域,具体涉及一种基于概率图的实体联合标注关系抽取方法和系统。
背景技术
关系抽取是信息抽取的一个重要子任务,目的是从非结构化的文本中提取结构化的数据,关系抽取的主要任务是抽取出文本中的实体和实体之间存在的关系,这些关系以三元组(主语、关系、宾语)的形式表示,这对构建知识图谱具有重要的作用。现有的主流关系抽取技术分为基于规则的关系抽取、有监督关系抽取、无监督关系抽取和半监督关系抽取。
基于规则的关系抽取首先基于规则和人工提取关系词,随后基于抽取的关系词抽取关系句,然后基于人工总结的模板进行模板匹配来抽取三元组。基于规则的关系抽取主要还是通过人工定义的一些抽取规则从文章中抽取三元组信息,重点是如何定义规则。与深度学习关系抽取相比,基于规则的关系抽取简单实用,无需训练,但是识别精度不稳定,容易受到特殊实体的影响,局限于特定领域。
监督学习的关系集合通常是确定的,有监督的关系抽取将任务当作分类问题,设计有效的特征进行训练,然后进行预测。有监督的关系抽取是目前研究的主流方法,获得的效果也是最好的,但是需要大量的训练数据和人工标注的语料。
半监督学习一般利用少量的标注信息作为种子模板,将已有的知识库对应到丰富的非结构化数据中,从而生成大量的训练数据,但是生成的训练数据无法保证训练数据的质量,容易引入大量的噪声,并且在整个任务的pipeline上会产生误差的传播和累积,影响后续关系抽取的精度。
无监督关系抽取一般利用语料中存在的大量冗余信息做聚类,根据类簇确定实体之间的关系。但由于聚类方法本身就存在难以描述关系和低频实例召回率低的问题,因此无监督学习一般难以得到很好的抽取效果。
在现有技术中,大多将关系抽取看作是串联的任务,即传统流水线的方法先进行实体识别,然后为每一对实体预测关系,这种方式使得任务相对简单且分工明确,但是存在一系列问题:两个任务的解决过程中没有考虑到两个子任务之间的相关性,从而导致关系抽取任务的结果严重依赖于实体抽取的结果,导致误差累积的问题。对于关系重叠的问题,串联方式无法提供较好的解决方案。
发明内容
技术问题:针对上述问题,本发明提供一种基于概率图的实体联合标注关系抽取方法和系统,本发明主要是利用概率图的思想,将实体关系建模为从实体到关系的映射,解决了一个句子中多个关系之间实体重合的问题和一个关系中多个实体对重合的问题,避免误差累积,以及关系重叠的问题。
技术方案:第一方面,本发明提供一种基于概率图的实体联合标注关系抽取方法,包括:
接收待进行实体联合标注关系抽取的文本;
进行特征提取:利用预训练的BERT编码器生成所述文本词嵌入,对所述词嵌入进行字词混合编码及位置编码,提取文本特征;
进行实体抽取:将实体抽取任务转为序列标注任务,将所述序列输入第一模型中得到第一输出特征,对所述第一输出特征激活后得到预测序列,通过设定的阈值得到实体的开始和结束位置;根据就近原则对主体和客体进行匹配,标记相近的实体头部和尾部进行截取;其中,所述第一模型包括依次连接的第一网络、第二网络和第三网络;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210004530.8/2.html,转载请声明来源钻瓜专利网。