[发明专利]知识图谱的数据融合方法和装置在审
申请号: | 201811635696.X | 申请日: | 2018-12-29 |
公开(公告)号: | CN109739939A | 公开(公告)日: | 2019-05-10 |
发明(设计)人: | 刘涛;朱宏明;顾江;姜逸之;王晓文;周游 | 申请(专利权)人: | 颖投信息科技(上海)有限公司 |
主分类号: | G06F16/28 | 分类号: | G06F16/28 |
代理公司: | 北京恒都律师事务所 11395 | 代理人: | 王清亮 |
地址: | 200040 上海市静安区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据平台 数据融合 方法和装置 访问接口 索引信息 图数据 匹配 图谱 存储 知识库 数据融合技术 相似度计算 候选实体 实体表示 实体属性 有效解决 三元组 数据源 相似度 子分区 统一 预设 申请 替换 分区 筛选 返回 转换 灵活 补充 配置 | ||
本申请提供了一种知识图谱的数据融合方法和装置,执行所述方法的系统包括配置有统一访问接口的数据平台,所述方法包括:将来自不同数据源的数据进行处理后转换为三元组格式,通过所述统一访问接口存储到数据平台,并接收所述数据平台返回的图数据索引信息;根据所述图数据索引信息,将所述数据平台中存储的实体按属性划分为一个或多个子分区;对划分到相同子分区中的候选实体对进行相似度计算,筛选出满足预设相似度条件的匹配实体对;对所述匹配实体对的实体属性值进行补充和/或替换,生成统一的实体表示。本申请通过上述手段,可有效解决现有数据融合技术不能灵活适应不同知识库的数据融合问题。
技术领域
本申请涉及知识图谱技术领域,特别地,涉及一种知识图谱的数据融合方法和装置。
背景技术
知识图谱是一种描述现实世界中存在的各种实体或概念及其关系而构成的一张巨大的语义网络图,其节点表示实体或概念,边则由属性或关系构成。现在的知识图谱已被用来泛指各种大规模的知识库。其中:实体是指具有可区别性且独立存在的某种事物,比如某个国家、某家公司、某个人等。属性是指一个实体的内在特性,比如国家具有“人口”、“面积”等不同属性(如图4所示),公司具有“名称”、“法定代表人”等属性。关系是一个实体与另一个实体的关联特征,比如某个公司注册在某个国家,某个人就职于某个公司等。
知识图谱的节点和边一般用三元组(S-P-O,Subject-Property-Object)的形式来定义,包括(实体1-关系-实体2)和(实体-属性-属性值)等形式,知识图谱可以表示为三元组的集合,在数据模型上可以表现为图的形式(如图4所示),并采用图数据库来进行数据的存储和管理。
现实世界中知识来源广泛,存在知识质量良莠不齐、来自不同数据源的知识重复、知识库层次结构缺失等问题;另外,不同的数据源对于同一实体可能有不同的知识表示,比如,在百度百科中某个公司实体具有名称属性‘阿里巴巴’,而从google搜索中抓取到的某个公司实体的名称属性是‘alibaba’,这两个实体在现实世界中有可能指向同一个实体,因此需要将他们的属性以及延伸的关系进行互相融合,从而在知识图谱中生成唯一的实体节点,消除歧义,生成高质量的知识库。
现有数据融合方案一般包括分区索引、相似度计算和实体融合等主要步骤,但在具体实现时会根据数据源以及知识库的特点选择对应的分区算法、相似度匹配算法和实体对齐算法,并将上述方案集成为一个完整的系统,当数据源或知识库的范围发生变化时,为适应新的需求,需要重新构建数据融合系统。
发明内容
本申请提供一种知识图谱的数据融合方法和装置,用于解决现有数据融合技术不能灵活适应不同知识库的数据融合问题。
本申请公开的一种知识图谱的数据融合方法,执行所述方法的系统包括配置有统一访问接口的数据平台,所述方法包括:将来自不同数据源的数据进行处理后转换为三元组格式,通过所述统一访问接口存储到数据平台,并接收所述数据平台返回的图数据索引信息;根据所述图数据索引信息,将所述数据平台中存储的实体按属性划分为一个或多个子分区;对划分到相同子分区中的候选实体对进行相似度计算,筛选出满足预设相似度条件的匹配实体对;对所述匹配实体对的实体属性值进行补充和/或替换,生成统一的实体表示。
优选地,在步骤根据所述图数据索引信息,将所述数据平台中存储的实体按属性划分为一个或多个子分区之前,还包括:将来自多个数据源的转换为三元组格式之后存储在数据平台中的实体根据其属性的实际含义进行对齐。
优选地,所述子分区划分方式为根据实体属性产生的全局唯一分区键进行等值划分,或基于预设聚类模型进行划分。
优选地,对划分到相同子分区中的候选实体对进行相似度计算,筛选出满足预设相似度条件的匹配实体对,具体为:为实体本身的属性以及与该实体相关的其他实体的属性分别设置不同的权重,加权求和计算候选实体对的总体相似度;若相同子分区中的候选实体对的总体相似度超过预设相似度阈值,则将该候选实体对作为匹配实体对。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于颖投信息科技(上海)有限公司,未经颖投信息科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811635696.X/2.html,转载请声明来源钻瓜专利网。