[发明专利]知识图谱嵌入模型的训练方法、装置和计算机存储介质在审
申请号: | 201911425280.X | 申请日: | 2019-12-31 |
公开(公告)号: | CN111221981A | 公开(公告)日: | 2020-06-02 |
发明(设计)人: | 李晨曦;荆宁;张红林 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/30;G06K9/62 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 冯右明 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 知识 图谱 嵌入 模型 训练 方法 装置 计算机 存储 介质 | ||
1.一种知识图谱嵌入模型的训练方法,包括:
获取图谱数据中正三元组中的待替换的第一实体;
计算所述第一实体与图谱数据中各个第二实体的语义相似度;
确定知识图谱嵌入模型的当前训练迭代次序,根据所述当前训练迭代次序以及所述第一实体与各所述第二实体的语义相似度,调整各所述第二实体的采样概率;
基于各所述第二实体的采样概率,从所述第二实体中随机筛选目标实体;
将所述正三元组中的第一实体替换为所述目标实体,得到负三元组;
根据所述正三元组以及所述负三元组,对知识图谱嵌入模型进行迭代训练。
2.根据权利要求1所述的方法,其特征在于,所述根据所述当前训练迭代次序以及所述第一实体与各所述第二实体的语义相似度,调整各所述第二实体的采样概率的步骤,包括:
获取各所述第二实体在所述图谱数据中的出现频率;
根据所述当前训练迭代次序、所述第一实体与各所述第二实体的语义相似度以及各所述第二实体的出现频率,计算各所述第二实体的采样概率。
3.根据权利要求2所述的方法,其特征在于,所述根据所述当前训练迭代次序、所述第一实体与各所述第二实体的语义相似度以及各所述第二实体的出现频率,计算各所述第二实体的采样概率的步骤,包括:
获取预设的训练迭代总次数;
根据所述当前训练迭代次序以及训练迭代总次数,确定所述第一实体与各所述第二实体的语义相似度的第一权重值,以及各所述第二实体的出现频率的第二权重值;
根据所述第一权重值以及所述第二权重值,计算所述第一实体与所述第二实体的语义相似度以及所述第二实体的出现频率的加权平均值,得到第二实体的采样概率。
4.根据权利要求1所述的方法,其特征在于,所述将所述正三元组中的第一实体替换为所述目标实体,得到负三元组的步骤,包括:
将所述正三元组中的第一实体替换为所述目标实体,获得替换三元组;
当所述替换三元组与所述图谱数据中各个三元组均不同,将所述替换三元组确定为与所述正三元组对应的负三元组。
5.根据权利要求1所述的方法,其特征在于,所述计算所述第一实体与图谱数据中各个第二实体的语义相似度的步骤,包括:
获取所述第一实体与各所述第二实体的共现关系相似度;
获取所述第一实体与各所述第二实体的实体类别相似度;
根据所述共现关系相似度与所述实体类别相似度,确定所述第一实体与各所述第二实体的语义相似度。
6.根据权利要求5所述的方法,其特征在于,所述获取所述第一实体与各所述第二实体的共现关系相似度的步骤,包括:
获取与所述第一实体存在共现关系的关系类别,得到第一关系类别集合;
获取与各所述第二实体存在共现关系的关系类别,得到各个第二关系类别集合;
分别计算所述第一关系类别集合以及各所述第二关系类别集合中,相同的关系类别的数量;
分别计算相同的关系类别的数量与关系类别总数量的比值,得到所述第一实体与各所述第二实体间的共现关系相似度。
7.根据权利要求5所述的方法,其特征在于,所述获取所述第一实体与各所述第二实体的实体类别相似度的步骤,包括:
获取所述第一实体所属的实体类别,得到第一实体类别集合;
获取各所述第二实体所属的实体类别,得到各个第二实体类别集合;
分别计算所述第一实体类别集合与各所述第二实体类别集合中,相同的实体类别的数量;
分别计算相同的实体类别的数量与实体类别总数量的比值,得到所述第一实体与各所述第二实体间的实体类别相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911425280.X/1.html,转载请声明来源钻瓜专利网。