[发明专利]一种基于ERNIE的远程监督关系抽取的降噪方法有效
申请号: | 201911345927.8 | 申请日: | 2019-12-24 |
公开(公告)号: | CN111125364B | 公开(公告)日: | 2023-04-25 |
发明(设计)人: | 蔡毅;于洋 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/211;G06N3/0464 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 裴磊磊 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 ernie 远程 监督 关系 抽取 方法 | ||
本发明公开了一种基于ERNIE的远程监督关系抽取的降噪方法,包括步骤:通过将训练集中的各个包中的所有的句子合并成长句并打上相应包的关系标签;将得到的新的长句数据集去训练一个基于预训练语言模型ERNIE的二分类器;利用训练后的二分类器对训练集进行重构,得到新的降噪后的训练集;用新的降噪后的训练集去训练基于预训练语言模型ERNIE的PCNN_ATT模型;将测试集合并成长句,再用训练好的模型对测试集中的包的标签进行预测。本发明能够使得关系预测的效果得到显著的提升。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于ERNIE的远程监督关系抽取的降噪方法。
背景技术
关系抽取是信息抽取中的一个基本任务,研究的是如何预测句子中实体对之间的语义关系。关系抽取的一个关键问题是相对缺乏大规模的高质量的标注数据。近年来,应对这一挑战的常用而有效的方法是利用远程监督实现通过语料与知识库对齐来获取训练数据的方法,即假设知识库中存在某一个实体对,那么语料中所有含有这个实体对的句子都被标记为此实体对在知识库中对应的关系。远程监控策略是一种有效的大规模训练数据自动标注方法。远程监督关系抽取被广泛应用于寻找新的关系文本中的事实。然而,由于一句话中提到两个实体并不一定表示两者之间的关系情况,因此远程监督不可避免地存在着错误的标签问题,这些问题中的噪音数据会严重影响关系抽取的性能。大量关于处理远程监督的噪声数据的研究工作已经取得重大进展,特别是近年来用于关系抽取的深度神经网络的快速发展给处理噪声工作带来了质的飞跃,但是在处理噪声的实验结果仍然有待提升。
基于深度学习远程监督的多实例学习的框架已成为取代了基于特征和图模型的最先进的统计方法。在远程监督的多实例学习框架中,每个实体通常对应有多个实例,其中一些实例是噪音,通常情况下知识库中关系为NA的实体对对应的包中噪声很少,可以忽略不计,因此降噪工作主要是处理关系为非NA的包中的噪声,由于在真实语料中大多数实体关系是NA,所以主要处理的噪声是假正性噪声。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于ERNIE的远程监督关系抽取的降噪方法。本发明通过重构训练集来进行有效地去除包中的假正性噪声数据,并通过结合注意机制和深度神经网络来达到比较好的关系抽取的效果。
本发明的目的能够通过以下技术方案实现:
一种基于ERNIE的远程监督关系抽取的降噪方法,包括步骤:
通过将训练集中的各个包中的所有的句子合并成长句并打上相应包的关系标签;
将得到的新的长句数据集去训练一个基于预训练语言模型ERNIE的二分类器;
利用训练后的二分类器对训练集进行重构,得到新的降噪后的训练集;
用新的降噪后的训练集去训练基于预训练语言模型ERNIE的PCNN_ATT模型;
将测试集合并成长句,再用训练好的模型对测试集中的包的标签进行预测。
具体地,所述关系标签为NA和not NA这两种关系标签。
具体地,利用训练后的二分类器对训练集中标签为非NA的包中的句子进行分类,如果分类结果为NA则去除这个句子,即去除训练集中标签为非NA的包中的假正性噪声数据。
具体地,所述利用重构训练集去训练基于attention机制的PCNN模型的步骤中,利用PCNN作为编码器得到句子级别的向量表示,用attention机制选出包中的对于关系分类的重要句子的信息,得到包级别的向量表示,再通过一个基于ERNIE的多分类器对当前的包做相应的关系分类。
本发明相较于现有技术,具有以下的有益效果:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911345927.8/2.html,转载请声明来源钻瓜专利网。