[发明专利]多元关系知识库构建方法和系统在审

专利信息
申请号: 202010306303.1 申请日: 2020-04-17
公开(公告)号: CN111506742A 公开(公告)日: 2020-08-07
发明(设计)人: 姚权铭 申请(专利权)人: 第四范式(北京)技术有限公司
主分类号: G06F16/36 分类号: G06F16/36;G06F16/33;G06F40/295;G06N5/02
代理公司: 北京铭硕知识产权代理有限公司 11286 代理人: 田方;曾世骁
地址: 100085 北京市海淀区上*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 多元 关系 知识库 构建 方法 系统
【说明书】:

公开了一种多元关系知识库构建方法和系统。所述方法包括:针对多元关系知识库中的多元组构建多元关系预测张量模型,并使用从所述多元关系知识库获得的训练样本对所述多元关系预测张量模型进行训练,其中,所述多元关系知识库具有多个多元组,每个多元组由一个关系元素和多个实体元素构成,所述训练样本是所述多元关系知识库中的不具有缺失实体元素的多元组;基于经过训练的多元关系预测张量模型来预测并补全所述多元关系知识库中具有缺失实体元素的多元组中的缺失实体元素;以及基于补全了缺失实体元素的各个多元组来构建完整的多元关系知识库。

技术领域

本申请涉及人工智能领域中的知识图谱技术,更具体地讲,涉及一种多元关系知识库构建方法和系统。

背景技术

随着信息网络技术的快速发展,各种信息网络数据内容呈现爆炸式增长的态势。这样的内容通常具有大规模、异质多元、组织结构松散的特点,给人们有效获取信息和知识提出了挑战。知识图谱(KG,Knowledge Graph)是语义网络的知识库,能够用可视化技术描述知识资源及其载体,并挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。

知识图谱作为一种特殊的图形结构,实体(entities)作为结点,关系(relations)作为有向边,最近引起了很多人的兴趣。在常见的知识图谱中,每个边缘被表示为具有(头部实体,关系,尾部实体)这一形式的三元组(s,r,o),以指示两个实体s(即,头部实体)和o(即,尾部实体)通过关系r连接,例如(NewYork,isLocatedIn,USA)可表示NewYork位于USA。在过去的几十年中建立了许多大型知识图谱,例如WordNet,Freebase,DBpedia,YAGO。它们改进了各种下游应用,例如结构化搜索、问答和实体推荐等。

然而,现有的知识图谱的处理方法通常限制在二维,例如(关系,实体1,实体2)这样的三个元素之间的三元关系,但是这样的表达有时很有局限性。例如,一般的购买行为可以是一个涉及购买者、物品和销售员的三元关系,但体育赛事奖项通常涉及运动员、队伍、奖项和赛季这样的四元关系。然而,大部分传统的知识图谱处理方法无法直接拓展到多元关系(例如,(关系,实体1,实体2,实体3,...)这样的多元关系),而一些张量模型(例如,基于Turker和CANDECOMP/PARAFAC(CP)的二元模型)虽然能够扩展,但它们具有表达能力不足或参数过多的问题。

因此,需要一种在具有足够表达能力的同时不需要过多参数来对具有多元关系的知识图谱进行处理的模型。

发明内容

根据本发明的实施例,提供了一种多元关系知识库构建方法,所述方法包括:针对多元关系知识库中的多元组构建多元关系预测张量模型,并使用从所述多元关系知识库获得的训练样本对所述多元关系预测张量模型进行训练,其中,所述多元关系知识库具有多个多元组,每个多元组由一个关系元素和多个实体元素构成,所述训练样本是所述多元关系知识库中的不具有缺失实体元素的多元组;基于经过训练的多元关系预测张量模型来预测并补全所述多元关系知识库中具有缺失实体元素的多元组中的缺失实体元素;以及基于补全了缺失实体元素的各个多元组来构建完整的多元关系知识库。

可选地,使用从所述多元关系知识库获得的训练样本对所述多元关系预测张量模型进行训练的步骤可包括:对多元关系预测张量模型的模型参数进行初始化;基于初始化的模型参数,执行至少一次迭代更新操作来更新所述模型参数。每次迭代更新操作可包括:选择预定数量的训练样本作为正样本集合并设置初始损失参数;针对正样本集合中的每个正样本,执行迭代损失更新操作来更新损失参数;根据损失参数的损失梯度来更新所述模型参数。每次迭代损失更新操作可包括:构建正样本集合中的当前正样本的负样本集合;使用所述多元关系预测张量模型的估分函数来计算当前正样本和针对当前正样本构建的负样本的得分,其中,所述估分函数用于确定存在所估计的多元组的概率;基于计算出的得分,使用所述多元关系预测张量模型的损失函数来计算当前损失参数;基于计算出的当前损失参数和上一次迭代损失更新操作所获得的损失参数来确定当前次迭代损失更新操作所获得的损失参数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于第四范式(北京)技术有限公司,未经第四范式(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010306303.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top