[发明专利]一种基于知识图谱嵌入的多三元组联合抽取方法有效
申请号: | 202010198105.8 | 申请日: | 2020-03-19 |
公开(公告)号: | CN111444305B | 公开(公告)日: | 2022-10-14 |
发明(设计)人: | 陈华钧;余海阳;邓淑敏;张宁豫 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/36;G06F40/30;G06N3/04 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 胡红娟 |
地址: | 310013 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 知识 图谱 嵌入 三元 联合 抽取 方法 | ||
本发明公开了一种基于知识图谱嵌入的多三元组联合抽取方法,包括:对获取的文本语句进行处理,得到文本语句矩阵;将文本语句矩阵输入到Transformer模型中提取文本语句的语义信息,得到语义特征向量;将语义特征向量用于实体识别序列标注任务,求得实体识别交叉熵损失loss1;将语义特征向量用于关系分类任务,求取关系分类的实体识别交叉熵损失loss2;利用实体标注预测矩阵和语句实体词关系分类矩阵构造实体词关系,求取关系的交叉熵损失loss3;利用loss1、loss2和loss3基于梯度下降的优化算法计算最小化总的损失函数loss,得到训练后的Transformer模型,利用待预测文本语句输入训练后的Transformer模型,得到预测文本语句的预测语义特征向量,完成多个三元组联合抽取方法。
技术领域
本发明涉及数据存储与处理技术领域,具体涉及一种知识图谱中三元组抽取的方法。
背景技术
知识图谱以结构化的形式描述客观世界中的概念、实体及其关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力,知识图谱主要包含实体、关系和三元组,每一个三元组表示一条知识。当两个实体之间存在某一种关系时,用(h,r,t)表示一个三元组,其中h,t分别表示头实体和尾实体,r表示关系,例如(中国,首都,北京)即表示了“北京是中国的首都”这么一条知识。
实体关系学习是自动化地从文本中检测和识别出实体之间具有的语义关系,也称为关系抽取,关系抽取是知识图谱构建和信息抽取中的一个关键环节,具有重要的理论意义和广阔的应用前景,为多种应用提供重要的支持,如大规模知识图谱自动化构建,包括如WordNet、HowNet等常识知识图谱中的通用语义知识,以及金融、医疗等垂直应用领域的定制知识图谱。信息检索、智能推荐、问答系统等知识图谱应用技术的优劣程度严重依赖于上层图谱构建的质量。
目前关系抽取的方法,主要分为基于规则的方法和基于机器学习的方法。传统专家依靠预定义好的规则手工编撰的方式构建知识库,不仅费时费力,而且存在知识覆盖率低、数据稀疏、更新缓慢等缺点。基于机器学习的方法则可以自动化地抽取三元组。自从深度学习发展起来后,学者侧重于使用深度神经网络模型处理关系抽取任务。
深度学习的方法抽取三元组,目前有分步抽取和端到端抽取两种方式。使用分步抽取的方式,即先识别出文本语料中的实体,标注出头实体h和尾实体t,再抽取出两者的关系r。这种方式会导致错误传播,第一步抽取中的错误会传递到第二步中,导致整体的正确率下降。而端到端抽取可避免这种错误传播。但是目前端到端抽取模型,不适合抽取多个三元组,或者抽取多个三元组时不允许有共享实体的情况。而真实语料中的知识情况比较复杂。例如句子“在浙江的这段旅程中,最让我难忘的还是杭州那美丽的西湖”中,存在实体:“浙江”、“杭州”、“西湖”,存在三元组有(浙江,省会,杭州),(杭州,位于,浙江),(浙江,旅游景点,西湖),(杭州,旅游景点,西湖)。这些三元组间共享部分实体,三元组间存在推理交互,抽取难度上升。
另外知识图谱中的知识表示学习,也是近年来研究的热点。研究者希望构建模型将实体与关系映射到低维向量,从而学习出知识库中的实体与关系的表示,其中基于词向量空间中存在词汇语义与句法关系平移不变现象的启发,而提出的TransE系列的知识嵌入模型成为知识表示学习的代表模型。
发明内容
本发明提供了一种基于知识图谱嵌入的多三元组联合抽取方法,该模型训练阶段引入知识表示学习下的知识图谱嵌入,从而兼顾到不同关系间的推理交互作用,一步抽取多个三元组,并解决实体共享导致的抽取难题。
一种基于知识图谱嵌入的多三元组联合抽取方法,包括:
(1)获取文本语句,对文本语句进行处理,得到处理后的文本语句矩阵。
所述的对文本语句进行处理,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010198105.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:目标检测方法、装置、电子设备和计算机可读介质
- 下一篇:一种带状料的上料装置