[发明专利]一种文本关系抽取方法、装置、设备和计算机存储介质在审
申请号: | 202210565045.8 | 申请日: | 2022-05-23 |
公开(公告)号: | CN114896402A | 公开(公告)日: | 2022-08-12 |
发明(设计)人: | 曾碧卿;李砚龙;邓会敏;丁明浩;蔡剑 | 申请(专利权)人: | 华南师范大学;广东农工商职业技术学院 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/216;G06K9/62 |
代理公司: | 广州骏思知识产权代理有限公司 44425 | 代理人: | 吴静芝 |
地址: | 528225 广东省佛山市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 关系 抽取 方法 装置 设备 计算机 存储 介质 | ||
本发明涉及一种文本关系抽取方法、装置、设备和和计算机存储介质。本发明所述的文本关系抽取方法包括获取文本句包;利用Bert预训练模型对文本句包进行负训练,将文本句包分为干净句包和噪声句包,并对噪声句包进行重标签,得到优化的文本句包;利用BERT预训练模型对优化的文本句包进行正训练,得到文本句包的分类结果。本发明所述的文本关系抽取方法通过Bert预训练模型对文本句包进行负训练,可以识别文本句包的噪声句包,进而对噪声句包进行重标签,显著降低了文本句包的噪声,有助于提高文本关系抽取效果。
技术领域
本发明涉及文本关系抽取技术领域,特别是涉及一种文本关系抽取方法、装置、设备和计算机存储介质。
背景技术
信息抽取是自然语言处理的主要任务,目的是从非结构化的文本中提取出结构化的文本信息,对于知识图谱的构建与扩充、以及知识库的结构化具有重要作用。
关系抽取是信息抽取中的一个重要步骤,其目标是对句子中实体对之间的关系进行分类,对于知识库问答、知识库构建和文本摘要等具有重要作用。关系抽取的一个关键问题是缺乏大规模高质量的标注数据,远程监督的方法可以有效解决标注数据较少的问题,远程监督是通过将语料与知识库对齐来获取训练数据,即假设知识库中存在某一实体对,那么语料中所有含有这个实体对的句子都被标记为此实体对在知识库中对应的关系。远程监督是一种有效的自动标注大规模训练数据的方法,但是由于其假设过于宽松,回标数据的过程中会产生大量的噪声,这些噪声数据会严重影响关系抽取的性能,为此,需要对远程监督关系抽取进行降噪处理。
目前,主要采用规则统计类方法、多示例学习方法和对抗和强化学习方法等对远程监督关系抽取进行降噪处理,其中:
(1)规则统计类方法属于机器的范畴,其目的是发现实体对与关系存在的模板或者规则联系,主要包括概率图模型、矩阵补全、核方法与依存关系等,该类方法可以挖掘出实体间的显式结构信息,同时对关系抽取过程具有一定可解释性,而且该类方法通常不需要训练过程,对时间和空间复杂度的要求较低。但是,该类方法过渡依赖大量的特征工程,不仅耗费人力和时间,而且存在分类效果差和泛化能力低的问题。
(2)多示例学习方法是远程监督关系抽取的主要降噪方法之一,其是将具有相同实体对的对齐文本组成一个多示例包(简称句包),并以句包为单位进行预测。多示例学习方法按照预测方法可分为错误标签预测、至少一个假设和注意力机制,其中:a)错误标签预测是通过计算句包标签和句包内各句子标签的相关性来判断是否为错误标签;b)至少一个假设是远程监督对齐的文本中至少存在一个句子可以秒上述真实的实体对关系,其每次只需要选择句包中的一个句子进行预测;c)注意力机制为句包中的每一个句子分配权重,句子是噪声时分配较低的权重以降低其对句包分类的影响,句子不是噪声时分配较高的权重以凸显其重要性,也就是说,注意力机制通过对每个句子赋予权重以强化真实标签数据和弱化错误标签数据。可见,相对于规则统计类方法而言,多示例学习方法可以避免特征工程带来的误差传播风险,使得模型更具有泛化能力。
但是,多示例学习方法的时间和空间复杂度要求要高于规则统计类方法,而且,多示例学习方法在进行模型训练时存在以下问题:1)多示例学习方法不能处理句包内所有句子都是噪声的情况,即全噪声句包,这是由于如果某一个实体对对齐的文本全部都是噪声,那么在多示例学习的框架下,都会至少为一个句子分配一个较大的权重,即认为必定有一个句子不是噪声,因此无法处理所有句子都是噪声的情况;2)基于句包的预测并不能很好地处理句子与标签关系的映射,在关系预测的同时,会出现句包标签和句子标签指代不明的情况,导致预测难度上升;3)注意力机制为主的软性策略容忍了一部分噪声参与模型的训练,使得模型学习到了一些错误的映射关系,从而可能影响整体分类效果。
(3)对抗和强化学习方法的主要目标是提升整体样本的质量,让模型可以学习到更准确的实体对关系,进一步提升训练模型的泛化能力和鲁棒性,因此,对抗和强化学习方法能够很好的提升语料的质量。但是,对抗和强化学习方法需要多个模型进行联合训练,训练难度大、且稳定性差,而且时间和空间复杂度高,难以工业化实现。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南师范大学;广东农工商职业技术学院,未经华南师范大学;广东农工商职业技术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210565045.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:表格图像处理方法和装置
- 下一篇:一种自动归档的档案库管理系统