[发明专利]知识图谱表示学习模型训练方法、装置及电子设备在审
申请号: | 202010324229.6 | 申请日: | 2020-04-22 |
公开(公告)号: | CN111680109A | 公开(公告)日: | 2020-09-18 |
发明(设计)人: | 杨孝辉 | 申请(专利权)人: | 北京三快在线科技有限公司 |
主分类号: | G06F16/28 | 分类号: | G06F16/28 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 任亚娟 |
地址: | 100083 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 知识 图谱 表示 学习 模型 训练 方法 装置 电子设备 | ||
本申请提供了一种知识图谱表示学习模型训练方法、装置及电子设备,该方法包括:获取知识图谱中的三元组训练数据;根据三元组训练数据构建四元组训练数据,四元组训练数据包括三元组训练数据以及三元组训练数据对应的权重;将四元组训练数据输入到预设模型中,对预设模型进行训练;在预设模型的损失函数的损失函数值小于损失函数阈值时,将训练后的预设模型确定为知识图谱表示学习模型。可见,在训练知识图谱表示学习模型时,考虑了不同三元组训练数据的重要程度,因此,通过训练好的知识图谱表示学习模型所提取的头实体对应的向量,尾实体对应的向量,以及头实体和尾实体之间的关系对应的向量的准确度较高。
技术领域
本申请涉及知识图谱和深度学习技术领域,特别是涉及知识图谱表示学习模型训练方法、装置及电子设备。
背景技术
随着科学技术的快速发展,知识图谱的构建和应用得到了快速的发展。知识谱图是由节点和不同类型的边组成的多关系图,其中,每个节点代表一个实体,每条边代表该条边连接的两个节点(称为头结点和尾节点)之间的关系,即表示头实体和尾实体通过特定的关系连接在一起。并且,头实体、尾实体以及关系所组成的三元组训练数据构成了事实。例如,(姚明,出生于,上海)就是一个事实。
虽然由三元组所构成事实在表示结构化数据方面很有效,但是,由于事实是一条条文本数据,因此,在实际应用中,对由三元组所构成的事实较难操作,为此,知识图谱表示学习应用而生,知识图谱的目的是将头实体、尾实体以及关系转化为向量。
发明人在实现本发明的过程中发现:相关技术中,知识图谱表示学习方法在将头实体、尾实体以及关系转化为向量时,对于每个事实或者实体,都是同等对待的。但是,在实际的应用场景中,不同事实或者实体的重要性是不一样。因此,利用相关技术的技术方案,转化所得的头实体对应的向量,尾实体对应的向量,以及关系对应的向量的准确度较低。
发明内容
为了解决相关技术中存在的转化所得的头实体对应的向量,尾实体对应的向量,以及关系对应的向量的准确度较低的技术问题,本申请提供了知识图谱表示学习模型训练方法、装置及电子设备。
第一方面,本申请实施例提供了一种知识图谱表示学习模型训练方法,所述方法包括:
获取知识图谱中的三元组训练数据,所述三元组训练数据包括头实体,尾实体,以及头实体和尾实体之间的关系;
根据所述三元组训练数据构建四元组训练数据,所述四元组训练数据包括所述三元组训练数据以及所述三元组训练数据对应的权重,所述三元组训练数据对应的权重用于表征所述三元组训练数据的重要程度;
将所述四元组训练数据输入到预设模型中,对所述预设模型进行训练,其中,在训练所述预设模型的过程中,所述预设模型提取所述头实体对应的向量,所述尾实体对应的向量,以及所述头实体和尾实体之间的关系对应的向量;
在所述预设模型的损失函数的损失函数值小于损失函数阈值时,将训练后的预设模型确定为知识图谱表示学习模型。
可选地,所述根据所述三元组训练数据构建四元组训练数据,包括:
统计知识图谱中的三元组训练数据中尾实体的数量;
根据尾实体的数量所在的数量区间对尾实体进行分组,得到尾实体分组,其中,尾实体的数量在同一数量区间的尾实体被分为同一尾实体分组;
基于数量区间的区间值大小确定对应的尾实体分组的权重,其中,一个数量区间的区间值越小,该数量区间对应的尾实体分组的权重越大;
对于每一尾实体分组,将所述尾实体分组的权重,确定为所述尾实体分组所包括的各个尾实体的三元组训练数据对应的权重;
将三元组训练数据以及三元组训练数据对应的权重确定为四元组训练数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三快在线科技有限公司,未经北京三快在线科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010324229.6/2.html,转载请声明来源钻瓜专利网。