[发明专利]基于一致性文本增强的远程监督关系抽取方法及装置有效

专利信息
申请号: 202110699269.3 申请日: 2021-06-23
公开(公告)号: CN113392216B 公开(公告)日: 2022-06-17
发明(设计)人: 彭敏;罗娟;胡刚;廖庆文 申请(专利权)人: 武汉大学
主分类号: G06F16/35 分类号: G06F16/35;G06F40/216;G06N3/08;G06N5/02
代理公司: 武汉智权专利代理事务所(特殊普通合伙) 42225 代理人: 张凯
地址: 430072*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 一致性 文本 增强 远程 监督 关系 抽取 方法 装置
【说明书】:

发明提供一种基于一致性文本增强的远程监督关系抽取方法及装置,该方法包括:按实体对和关系标签对多个句子实例进行划分,得到多个句子包;对每个句子包中的每个句子实例采用不同的文本增强方法,得到每个句子包中的每个句子实例对应的强增强样本以及弱增强样本;确定噪声样例,并通过无关系句子实例以及噪声样例的强增强样本和弱增强样本对关系预测模型进行训练,得到训练好的关系预测模型;利用训练好的关系预测模型对待预测的句子包进行预测,获得与其对应的关系标签。通过本发明,通过一致性文本增强,能够增加数据集规模,增强模型的泛化学习能力,让“NA”类别和噪音样例约束模型学习更多的监督信息。

技术领域

本发明涉及自然语言处理领域,尤其涉及一种基于一致性文本增强的远程监督关系抽取方法及装置。

背景技术

互联网上的海量信息,通过信息抽取的相关技术,可以提取出大量有价值的知识和信息。作为信息抽取中的一个重要环节,关系抽取(Relation Extraction,RE)旨在从文本中提取实体间的关系,为其他自然语言应用如构建知识图谱、搜索引擎、对话生成、自然问答、信息检索等提供了重要的支持。

关系抽取模型的训练需要大量的标注样本提供监督信息。然而,同一种关系类型可能有不同的文本表达,同时,不同类型的关系也可以用同一个词来描述。这种关系和文本之间的模糊性使得人工标注代价较高。

为了减少人工标注,远程监督被提出,通过将文本和知识库对齐来自动标注句子和关系之间的映射关系。它假设如果知识库中存在一个三元组(即头实体、关系、尾实体),那么所有包含该头实体和尾实体的句子都可以表达这种关系。然而,许多噪音来自于这个假设的失败——有些句子包含相同的实体对,但表达另一个关系。其次,如果知识库中不存在实例中的三元组,将会把该实例划分到无关系(NA,NotAny)类别。“NA”类别在训练集中占比很大,为73.9%。“NA”不是一种具体的关系,而是所有未知关系的集合,所以它分布较为稀疏,多数模型难以利用这些实例自身具有的监督信息。

为了突出有效实例,减少噪音的影响,主流方法通常采用多实例学习(Multi-Instance Learning),将所有包含同一个实体对、表达同一关系的句子视为一个包,并提出了“至少有一个(at-least-one)”假设。现有不少研究通过后验信息,或挑选包内置信度最高的实例,或引入了注意机制来为各实例分配权重,或通过强化学习、对抗生成训练过滤噪音实例。尽管这些方法能够减少噪音的影响,但也使得模型能够利用的实例信息减少了许多。或者使用软标签(soft label)方法动态地纠正远程监督方法标注的错误标签,可以增加模型能利用的实例信息,然而其并未注意到“NA”类别,利用率仍然较低。

本申请发明人发现现有技术的方法,至少存在如下技术问题:

1)占训练集约70%左右的“NA”类别通常没有被有效利用,然而部分“NA”样例是因为知识库不全而被误分到“NA”类别,它们可以通过模型的学习,为模型提供监督信息;

2)许多研究方法将训练集中的噪音样例,降低权重或者直接滤除,使得这些噪音样例含有的有效信息通常不能得到充分利用;

3)对抗生成等方法增加的扰动,尽管能够增加模型的抗干扰能力,但其通常不能提供符合实际情况的扰动,不太稳定,容易使模型训练的方向出现偏差。

发明内容

本发明的主要目的在于提供一种基于一致性文本增强的远程监督关系抽取方法及装置,旨在解决上述至少一个技术问题。

第一方面,本发明提供一种基于一致性文本增强的远程监督关系抽取方法,所述基于一致性文本增强的远程监督关系抽取方法包括:

获取多个句子实例,基于远程监督的假设,将每个句子实例对齐到知识库,确定每个句子实例对应的关系标签,将实体对和关系标签相同的句子实例划分到一个句子包,得到多个句子包;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110699269.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top