[发明专利]一种融合五维特征的高普适性多对多关系三元组抽取方法有效

专利信息
申请号: 202210076961.5 申请日: 2022-01-24
公开(公告)号: CN114091464B 公开(公告)日: 2022-04-29
发明(设计)人: 朱海峰;吴晓峰;陶玥 申请(专利权)人: 南京万得资讯科技有限公司
主分类号: G06F40/295 分类号: G06F40/295;G06F40/30;G06F16/35
代理公司: 上海申汇专利代理有限公司 31001 代理人: 翁若莹;柏子雵
地址: 210019 江苏省*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 融合 特征 高普适性多 关系 三元 抽取 方法
【说明书】:

发明提供的一种融合五维特征的高普适性多对多关系三元组抽取方法采用TransH关系超平面机制,头实体将在不同依存关系空间中分别投影,尾实体的关系超平面嵌入则为头实体投影与依存关系嵌入的翻译,该设计解决依存关系中存在的多对一关系问题,将语义和句法上独立的分词间的依存特征融入分词的表示中,更为精确且极大地丰富了词向量的表示;本发明构建的这一套管道式三元组抽取方案,将庞大的词向量预训练模型和高性能底层自然语言处理特征有机结合,增加模型语义理解能力,从而提升模型处理多场景任务的能力,为构建大规模知识图谱奠基。

技术领域

本发明涉及一种融合多维特征开放场景下三元组抽取方法,涉及自然语言处理技术领域。

背景技术

随着大数据时代的到来,海量的数据充斥着我们的生活,如何从庞杂的数据中筛选出重要信息,高效地利用是重要的研究方向。三元组抽取可以从海量的文本中获取结构化信息,从而描述客观世界中的概念、实体间的复杂关系,提供了一种更好地组织、管理和理解互联网海量信息的能力。同时,从非结构化文本中提取关系三元组是构建大规模知识图的关键,经过数据融合后的三元组将成为智能问答、信息检索、推荐系统等上层人工智能应用的重要数据基础。

然而在进行限定域三元组抽取时,需要针对三元组中的特定关系类型事先进行定义,但是如果更换抽取场景,关系类型发生变化后,原先的模型几乎抽取不到三元组,这就得重新定义关系类型并标注数据集,而且这个标注过程相当耗时,成本几乎无法接受。因此,设计开放场景下的三元组抽取模型十分必要,该模型无需在新业务场景标注新关系类型和数据,而是可以直接抽取三元组,经过属性归一和实体对齐之后这些三元组将成为知识图谱的核心数据;经过统计和关联分析这些三元组的关系词和实体类型可以用于揭示领域的热点技术、新兴方向和知识体系。此外,由于不需要事先定义关系类型,开放场景中将抽取大量的低频关系,这些低频关系也具有一定的意义,如:图谱问答系统,只要抽取结果是正确的,一个高频的关系和低频关系的回答方式并没有差异,因此只要能保证开放场景下的三元组抽取准确率达到一定水准,相较于限定关系抽取而言则具有不可替代的优势。

大多数现有的三元组方法用于处理一对一关系问题,不能有效地处理一个句子包含多个相互重叠的关系三元组的场景,在解决同一句子中的多个关系三元组共享相同实体的重叠三元组问题中捉襟见肘。棘手的是,现实场景中大部分实体间都包含多种复杂的关联关系,如果不能解决该问题,那么知识图谱则不完整,图谱中本该关联的实体成为独立的孤岛,直接影响到图谱的预测和推理功能。因此进行多对多关系三元组的抽取研究是知识图谱落地的重要步骤,是知识图谱支撑上层应用的重要保障。

发明内容

本发明的目的是:实现多对多关系三元组的抽取。

为了达到上述目的,本发明的技术方案是提供了一种融合五维特征的高普适性多对多关系三元组抽取方法,其特征在于,包括以下步骤:

第一步:数据准备

准备用于训练实体识别模型的实体识别语料以及用于三元组分类引擎训练的三元组分类语料,其中,取语义角色类型为施事者作为头实体、受事者作为尾实体、施事者及受事者对应的谓词作为关系,同组出现的语义角色构成结构为头实体,关系,尾实体的三元组;

第二步:构建用于进行实体抽取的实体识别模型,包括以下步骤:

步骤1、生成底层自然语言处理特征

对文本进行分句,再使用底层自然语言处理工具HanLP对文本中的每句句子进行分词,生成分词的词性、语义角色、语义依存和句法依存四个维度特征;

步骤2、引入Bert预训练词向量

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京万得资讯科技有限公司,未经南京万得资讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210076961.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top