[发明专利]一种文档级远程监督关系抽取方法及系统有效
申请号: | 202011135229.8 | 申请日: | 2020-10-21 |
公开(公告)号: | CN112307130B | 公开(公告)日: | 2022-07-05 |
发明(设计)人: | 刘知远;孙茂松;肖朝军;姚远;谢若冰;韩旭;林芬;林乐宇 | 申请(专利权)人: | 清华大学;腾讯科技(深圳)有限公司 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/215;G06F40/284;G06N3/08 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 张睿 |
地址: | 100084 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文档 远程 监督 关系 抽取 方法 系统 | ||
1.一种文档级远程监督关系抽取方法,其特征在于,包括:
获取远程监督数据;
基于训练好的预降噪模型,对所述远程监督数据进行降噪处理,得到目标远程监督数据,所述训练好的预降噪模型是由标注为正样例的样本远程监督数据和标注为负样例的样本远程监督数据训练得到的;
将所述目标远程监督数据输入到训练好的文本编码器模型中,得到文档级关系抽取结果,所述训练好的文本编码器模型是由降噪后的样本文档级远程监督数据训练得到的;
所述方法还包括:
通过预训练的文本编码器模型,对每一个实体对进行分类,得到每一个实体对属于任意一个关系的概率P:
P=softmax(wfr+bf);
其中,表示实体对向量,d为向量维度;和表示训练参数,nr为关系数量,两个参数为关系分类时的线性输出层的两个参数,用于计算关系分类的输出;
将交叉熵作为损失函数进行训练,对预训练的文本编码器模型中的参数进行微调,得到训练好的文本编码器模型。
2.根据权利要求1所述的文档级远程监督关系抽取方法,其特征在于,所述训练好的文本编码器模型通过以下步骤训练得到:
通过训练好的预降噪模型,对样本远程监督数据进行降噪处理,得到降噪后的样本远程监督数据;
根据所述降噪后的样本远程监督数据,对待训练的文本编码器模型分别进行实体提及匹配预训练、实体关系事实检测预训练和关系事实对齐预训练,得到预训练的文本编码器模型;
通过预设标注数据集,对所述预训练的文本编码器模型进行调整,得到训练好的文本编码器模型,所述预设标注数据集是由已标注实体关系的远程监督数据构建得到的。
3.根据权利要求2所述的文档级远程监督关系抽取方法,其特征在于,所述训练好的预降噪模型通过以下步骤训练得到:
获取样本远程监督数据,并将具有实体关系的样本远程监督数据标注为正样例,将不具有实体关系的样本远程监督数据标注为负样例;
根据所述正样例和所述负样例,对待训练的预降噪模型进行训练,得到训练好的预降噪模型。
4.根据权利要求2所述的文档级远程监督关系抽取方法,其特征在于,所述训练好的文本编码器模型和所述训练好的预降噪模型是基于BERT模型构建得到的。
5.根据权利要求2所述的文档级远程监督关系抽取方法,其特征在于,所述实体提及匹配预训练包括:
获取所述降噪后的样本远程监督数据中的实体提及和实体;
获取所述实体提及和所述实体之间的匹配分数;
根据所述匹配分数,通过归一化指数函数和交叉熵函数,获取第一损失函数;
根据所述第一损失函数对所述待训练的文本编码器模型进行更新,以完成实体提及匹配预训练。
6.根据权利要求2所述的文档级远程监督关系抽取方法,其特征在于,所述实体关系事实检测预训练包括:
获取所述降噪后的样本远程监督数据中所有的实体对;
通过线性变换,对每个实体对进行打分,得到每个实体对的分数;
根据每个实体对的分数,通过归一化指数函数和交叉熵函数,获取第二损失函数;
根据所述第二损失函数对所述待训练的文本编码器模型进行更新,以完成实体关系事实检测预训练。
7.根据权利要求2所述的文档级远程监督关系抽取方法,其特征在于,所述关系事实对齐预训练包括:
获取所述降噪后的样本远程监督数据中多个文档;
从多个文档中获取相同的实体对,并根据归一化指数函数和交叉熵函数,获取第三损失函数,以根据所述第三损失函数对所述待训练的文本编码器模型进行更新,以完成关系事实对齐预训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学;腾讯科技(深圳)有限公司,未经清华大学;腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011135229.8/1.html,转载请声明来源钻瓜专利网。