[发明专利]知识图谱的数据融合方法和装置在审
申请号: | 201811635696.X | 申请日: | 2018-12-29 |
公开(公告)号: | CN109739939A | 公开(公告)日: | 2019-05-10 |
发明(设计)人: | 刘涛;朱宏明;顾江;姜逸之;王晓文;周游 | 申请(专利权)人: | 颖投信息科技(上海)有限公司 |
主分类号: | G06F16/28 | 分类号: | G06F16/28 |
代理公司: | 北京恒都律师事务所 11395 | 代理人: | 王清亮 |
地址: | 200040 上海市静安区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据平台 数据融合 方法和装置 访问接口 索引信息 图数据 匹配 图谱 存储 知识库 数据融合技术 相似度计算 候选实体 实体表示 实体属性 有效解决 三元组 数据源 相似度 子分区 统一 预设 申请 替换 分区 筛选 返回 转换 灵活 补充 配置 | ||
1.一种知识图谱的数据融合方法,其特征在于,执行所述方法的系统包括配置有统一访问接口的数据平台,所述方法包括:
将来自不同数据源的数据进行处理后转换为三元组格式,通过所述统一访问接口存储到数据平台,并接收所述数据平台返回的图数据索引信息;
根据所述图数据索引信息,将所述数据平台中存储的实体按属性划分为一个或多个子分区;
对划分到相同子分区中的候选实体对进行相似度计算,筛选出满足预设相似度条件的匹配实体对;
对所述匹配实体对的实体属性值进行补充和/或替换,生成统一的实体表示。
2.根据权利要求1所述的方法,其特征在于,在步骤根据所述图数据索引信息,将所述数据平台中存储的实体按属性划分为一个或多个子分区之前,还包括:将来自多个数据源的转换为三元组格式之后存储在数据平台中的实体根据其属性的实际含义进行对齐。
3.根据权利要求1所述的方法,其特征在于,所述子分区划分方式为根据实体属性产生的全局唯一分区键进行等值划分,或基于预设聚类模型进行划分。
4.根据权利要求1所述的方法,其特征在于,对划分到相同子分区中的候选实体对进行相似度计算,筛选出满足预设相似度条件的匹配实体对,具体为:
为实体本身的属性以及与该实体相关的其他实体的属性分别设置不同的权重,加权求和计算候选实体对的总体相似度;
若相同子分区中的候选实体对的总体相似度超过预设相似度阈值,则将该候选实体对作为匹配实体对。
5.根据权利要求1所述的方法,其特征在于,对缺失的实体属性值进行补充的方法为通过爬虫从网络获取或进行人工填充。
6.根据权利要求1所述的方法,其特征在于,所述图数据索引信息为三元组格式的图数据在所述数据平台的存储地址及其元数据。
7.一种知识图谱的数据融合装置,其特征在于,包括数据平台、数据预处理模块、实体分区模块、实体匹配模块和实体融合模块,其中:
所述数据平台配置有统一访问接口;
所述数据预处理模块用于将来自不同数据源的数据进行处理后转换为三元组格式,通过所述统一访问接口存储到数据平台,并接收所述数据平台返回的图数据索引信息;
所述实体分区模块根据所述数据预处理模块输出的图数据索引信息,将所述数据平台中存储的实体按属性划分为一个或多个子分区;
所述实体匹配模块用于将所述实体分区模块划分到相同子分区中的候选实体对进行相似度计算,筛选出满足预设相似度条件的匹配实体对;
所述实体融合模块用于对所述实体匹配模块筛选出的匹配实体对的实体属性值进行补充和/或替换,生成统一的实体表示。
8.根据权利要求7所述的装置,其特征在于,所述实体分区模块包括等值分区子模块和/或聚类分区子模块;
所述等值分区子模块用于根据实体属性产生的全局唯一分区键对存储在数据平台中的实体进行等值划分;
所述聚类分区子模块基于预设聚类模型对存储在数据平台中的实体进行划分;
所述实体匹配模块具体包括相似度计算子模块和比较子模块;
所述相似度计算子模块用于为实体本身的属性以及与该实体相关的其他实体的属性分别设置不同的权重,加权求和计算候选实体对的总体相似度;
所述比较子模块用于判断相同子分区中的候选实体对的总体相似度是否超过预设相似度阈值,若是,则将该候选实体对作为匹配实体对。
9.根据权利要求7所述的装置,其特征在于,所述装置还包括数据处理模块和/或属性对齐模块;
所述数据处理模块用于通过所述统一访问接口对数据平台中的节点实体数据和边实体数据进行处理,并返回数据处理结果传递给下一个模块;
所述属性对齐模块用于将来自多个数据源的经所述数据预处理模块处理后存储在数据平台中的实体根据其属性的实际含义进行对齐。
10.一种存储介质,其特征在于,所述存储介质存储有用于执行权利要求1~6任一所述的方法的程序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于颖投信息科技(上海)有限公司,未经颖投信息科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811635696.X/1.html,转载请声明来源钻瓜专利网。