[发明专利]一种基于小样本学习的知识图谱实体链接预测方法在审
申请号: | 202111424146.5 | 申请日: | 2021-11-26 |
公开(公告)号: | CN114153985A | 公开(公告)日: | 2022-03-08 |
发明(设计)人: | 刘泽超;马万朋;孙建国;刘瑞男;武俊鹏;申林山 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150001 黑龙江省哈尔滨市南岗区*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 样本 学习 知识 图谱 实体 链接 预测 方法 | ||
1.一种基于小样本学习的知识图谱实体链接预测方法,其特征在于,包括以下步骤:
步骤1:在知识库中提取大量的由头实体、关系、尾实体构成的三元组,将这些三元组整理为后续模型训练所需的数据集;
步骤2:根据元学习的数据集处理标准,将整体数据集分为两个部分MTrain训练集和MTest测试集,为保证基于小样本的模型训练正确性,要求
步骤3:定义以向量方式表达的三元组为(h,r,t);其中,h,t分别表示头、尾实体向量;r表示关系向量;将步骤2中的MTrain和MTest根据实体的自身语义复杂度以动态向量维度的方式进行初始化;
步骤4:对于MTrain中具有相同关系r的三元组加入到任务Taskr中,定义T是所有关系任务的集合,Taskr∈T;
步骤5:根据步骤4中的T抽取任意一项任务Task′r,对于多数Task′r会包含多个三元组信息,将Task′r中的多个三元组划分出支持集Sr和查询集Qr;
步骤6:对步骤5中的支持集Sr中某个实体对使用基于元学习的机器学习方法进行关系信息提取;
步骤7:利用知识表示学习方法中的核心思想确定三元组评估函数以及损失函数,不断进行梯度更新,得到最终的关系信息向量;
步骤7.1:对步骤5中的Sr头尾实体数量对应关系分类,针对一对多、多对一等复杂情况以头尾实体所占比例为主要依据完成负样本的生成,加快模型训练的速度;
步骤7.2:将步骤6.3中得到的关系向量以及实体对(hi,ti)通过超平面转换分别得到使用三元组评估函数允许头尾实体在涉及不同关系时具有分布式表示的特点;
步骤7.3:根据步骤7.2中三元组评估函数定义损失函数其中,γ为边界超参数;分别代表正样本与负样本的得分;C是约束的超参数;
步骤7.4:计算步骤7.3中损失函数对于当前任务的关系信息向量的梯度变化量遵循梯度更新的规则,按照实现对关系信息向量的快速更新;其中,为更新后的关系信息;α为学习率;
步骤7.5:重复步骤7.1到7.4,持续更新直到遍历支持集Sr中的全部三元组;
步骤8:将步骤5中的查询集Qr所有三元组按照步骤6、步骤7完成关系信息更新,得到最终关系信息向量
步骤9:对步骤3中测试集MTest,按照步骤5分解出支持集SrT和查询集QrT,将SrT以步骤6到步骤7最终得到的关系信息向量对三元组中的关系进行初始化,训练完整三元组的向量表示;
步骤10:将步骤9中的查询集QrT中的实体向量带入三元组中缺失的部分,结合步骤7.2中的评分函数计算得分,通过MRR、HIT@K等评测方法确定最终补全的实体。
2.根据权利要求1所述的一种基于小样本学习的知识图谱实体链接预测方法,其特征在于:所述步骤6具体包括:
步骤6.1:从支持集Sr取出实体对(hi,ti),通过若干层全连接神经网络的计算得到实体对(hi,ti)对于关系r的表示
步骤6.2:计算支持集Sr中的三元组个数N,重复步骤6.1得到支持集Sr中所有实体对关系r的表示之和
步骤6.3:计算对关系r的信息提取结果为
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111424146.5/1.html,转载请声明来源钻瓜专利网。