[发明专利]一种开放域语料关系联合抽取方法在审

专利信息
申请号: 202210984004.2 申请日: 2022-08-17
公开(公告)号: CN115310454A 公开(公告)日: 2022-11-08
发明(设计)人: 马颖忆;刘志峰;葛少峰;张启菊;王海英 申请(专利权)人: 金陵科技学院
主分类号: G06F40/30 分类号: G06F40/30;G06K9/62;G06N3/04;G06N3/08
代理公司: 南京钟山专利代理有限公司 32252 代理人: 徐燕
地址: 211169 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 开放 语料 关系 联合 抽取 方法
【说明书】:

一种开放域语料关系联合抽取方法,包括以下步骤:S1、提取语料中字符的特征向量;S2、在图注意力网络中进行特征融合;S3、将语料中的关系短语进行抽取;S4、将语料中的实体对短语进行抽取;S5、根据步骤S3抽取的关系短语以及步骤S4抽取对应的实体对短语,将其组成三元组,并确定该三元组的置信度,若置信度大于或等于设定置信度阈值时,则将该三元组作为输入语料的开放域关系三元组。通过上述方案实现针对开放域关系抽取普遍存在的关系三元组序列冗余、关系三元组重叠、关系三元组抽取准确率低等问题。

技术领域

发明涉及自然语言处理技术领域,特别涉及一种开放域语料关系联合抽取方法。

背景技术

随着互联网技术的快速发展,信息技术产生海量无结构化数据,信息抽取技术已经被广泛应用于从无结构化数据中抽取出结构化且有用的数据信息。与传统的信息抽取技术不同,开放域关系抽取不需要定义关系类型,此外,不受特定领域数据集的限制,可以从非结构化数据中抽取出关系三元组,较好地应用于数据转变、场景切换等情况下的信息抽取。随着研究的深入,基于深度学习的开放域关系抽取技术逐渐成为主流趋势。

目前,基于深度学习的开放域关系抽取技术主要采用序列标注的方法、抽取式或生成式的方法,这些方法技术把抽取关系三元组的过程分为两个步骤,首先抽取语料中的关系短语,再根据抽取的关系短语结果,抽取可能对应的实体对短语。传统的开放域关系抽取方法主要存在三个问题:(1)主观地将实体对短语的抽取、关系短语的抽取划分为两个子任务,忽视了两者之间的内在语义联系及语法结构上的依存关系,容易产生误差传播,导致开放域关系抽取结果准确率不高;(2)忽略实体短语存在于多个关系三元组中的实体短语重叠等问题,导致开放域关系抽取结果语义不充分,影响抽取准确率;(3)未充分考虑语料中语句词之间的依赖关系,部分关系三元组序列冗余,导致误差积累,影响开放域关系抽取的准确率与效率。

针对上述传统开放域关系抽取技术存在的问题,本发明创新性地提出一种基于多链路图注意力网络的开放域关系联合抽取方法,采用实体对短语和关系短语联合学习的方式,实现开放域关系三元组的联合抽取;此外,采用图注意力网络融合语料中语句字符级的依赖关系,通过多链路解码三元组的机制,解决关系三元组冗余过长等问题。

发明内容

本发明针对现有技术中的不足,提供一种开放域语料关系联合抽取方法;针对开放域关系抽取普遍存在的关系三元组序列冗余、关系三元组重叠、关系三元组抽取准确率低等问题。

为实现上述目的,本发明采用以下技术方案:

一种开放域语料关系联合抽取方法,包括以下步骤:

S1、提取语料中字符的特征向量:将语料输入至BERT预训练语言模型中对语料进行编码,并得到语料中字符的特征向量;

S2、在图注意力网络中进行特征融合:基于图注意力网络将字符的特征向量中所包含的特征进行融合,并学习字符间的依赖关系;

S3、将语料中的关系短语进行抽取:通过设计关系短语序列标注模型抽取语料中存在的关系短语,其中关系短语的含义为语料句子中的谓语部分;

S4、将语料中的实体对短语进行抽取:由于关系短语的含义为语料句子中的谓语部分,因此每个关系短语都有对应的实体对短语,其中实体对短语包括首实体短语和尾实体短语,首实体短语的含义为语料句子中的主语,尾实体短语的含义为语料句子中的宾语;根据步骤S2的字符间依赖关系以及通过基于图注意力网络预测每个关系短语所对应的实体对短语,并进行抽取;

S5、根据步骤S3抽取的关系短语以及步骤S4抽取对应的实体对短语,将其组成三元组,并确定该三元组的置信度,若置信度大于或等于设定置信度阈值时,则将该三元组作为输入语料的开放域关系三元组。

为优化上述技术方案,采取的具体措施还包括:

进一步地,步骤S2中所述学习字符间的依赖关系的具体计算公式为:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于金陵科技学院,未经金陵科技学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210984004.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top