[发明专利]一种基于ERNIE的远程监督关系抽取的降噪方法有效
申请号: | 201911345927.8 | 申请日: | 2019-12-24 |
公开(公告)号: | CN111125364B | 公开(公告)日: | 2023-04-25 |
发明(设计)人: | 蔡毅;于洋 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/211;G06N3/0464 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 裴磊磊 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 ernie 远程 监督 关系 抽取 方法 | ||
1.一种基于ERNIE的远程监督关系抽取的降噪方法,其特征在于,包括步骤:
通过将训练集中的各个包中的所有的句子合并成长句并打上相应包的关系标签;所述关系标签为NA和not NA这两种关系标签;
将得到的新的长句数据集去训练一个基于预训练语言模型ERNIE的二分类器;
利用训练后的二分类器对训练集进行重构,得到新的降噪后的训练集,具体为:
将原始训练集分成标签为NA和非NA的两部分,再利用之前训练好的二分类器对训练集中标签为非NA的包中的句子进行分类,如果分类结果为NA则从原始训练集中去除这个句子,这样就去除了训练集中标签为非NA的包中的假正性噪声数据,将去除假正性噪声数据的关系为非NA的包和原始训练集中关系为NA的包合并成新的数据集,即得到了新的降噪后的训练集;
用新的降噪后的训练集去训练基于预训练语言模型ERNIE的PCNN_ATT模型,具体为:
利用CNN作为编码器得到各个包中的句子的向量表示,采用卷积层合并句子中所有的局部特征,具体为:
卷积层首先利用步长为l的滑动窗口提取句子的局部特征,卷积定义为向量序列M和卷积矩阵之间的操作,其中,l为窗口大小,d为词向量维度,dc为卷积核个数,向量qi定义为第i个窗口对应的l个词的向量序列:
qi=Mi-l+1:i(1≤i≤m+l-1)
一个句子中第i个词的词向量设为mi∈Rd,其中d为词向量的维度,M指代一个句子的所有词向量组成的矩阵,n则是一个句子长度,
M=(m1,m2......mn);
第i个卷积层的计算操作如下:
pi=[Wq+b]i
对于向量的第i个元素的计算如下:
[x]i=max(pi);
利用attention机制选出包中的对于关系分类的重要句子的信息,即使得同一个包中不同句子分配了不同权重,句子表示的加权求和就得到包级别的向量表示,具体为:
定义一个包为S,其包含了n个句子即S={x1,x2......xn},这个包对应的关系的向量为r,包中第i个句子对应的权重设为αi,包的向量表示定义为:
为了衡量一个句子和包的关系r之间的匹配程度定义下述公式:
ei=xiAr
其中A是一个对角矩阵,xi是包中第i个句子的向量表示。
得到一个包中不同句子的权重,计算公式为:
将得到的包的向量表示输入到一个基于ERNIE的多分类器中得到最后的关系分类结果;
将测试集合并成长句,再用训练好的模型对测试集中的包的标签进行预测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911345927.8/1.html,转载请声明来源钻瓜专利网。