[发明专利]知识图谱的数据融合方法和装置在审

专利信息
申请号: 201811635696.X 申请日: 2018-12-29
公开(公告)号: CN109739939A 公开(公告)日: 2019-05-10
发明(设计)人: 刘涛;朱宏明;顾江;姜逸之;王晓文;周游 申请(专利权)人: 颖投信息科技(上海)有限公司
主分类号: G06F16/28 分类号: G06F16/28
代理公司: 北京恒都律师事务所 11395 代理人: 王清亮
地址: 200040 上海市静安区*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据平台 数据融合 方法和装置 访问接口 索引信息 图数据 匹配 图谱 存储 知识库 数据融合技术 相似度计算 候选实体 实体表示 实体属性 有效解决 三元组 数据源 相似度 子分区 统一 预设 申请 替换 分区 筛选 返回 转换 灵活 补充 配置
【权利要求书】:

1.一种知识图谱的数据融合方法,其特征在于,执行所述方法的系统包括配置有统一访问接口的数据平台,所述方法包括:

将来自不同数据源的数据进行处理后转换为三元组格式,通过所述统一访问接口存储到数据平台,并接收所述数据平台返回的图数据索引信息;

根据所述图数据索引信息,将所述数据平台中存储的实体按属性划分为一个或多个子分区;

对划分到相同子分区中的候选实体对进行相似度计算,筛选出满足预设相似度条件的匹配实体对;

对所述匹配实体对的实体属性值进行补充和/或替换,生成统一的实体表示。

2.根据权利要求1所述的方法,其特征在于,在步骤根据所述图数据索引信息,将所述数据平台中存储的实体按属性划分为一个或多个子分区之前,还包括:将来自多个数据源的转换为三元组格式之后存储在数据平台中的实体根据其属性的实际含义进行对齐。

3.根据权利要求1所述的方法,其特征在于,所述子分区划分方式为根据实体属性产生的全局唯一分区键进行等值划分,或基于预设聚类模型进行划分。

4.根据权利要求1所述的方法,其特征在于,对划分到相同子分区中的候选实体对进行相似度计算,筛选出满足预设相似度条件的匹配实体对,具体为:

为实体本身的属性以及与该实体相关的其他实体的属性分别设置不同的权重,加权求和计算候选实体对的总体相似度;

若相同子分区中的候选实体对的总体相似度超过预设相似度阈值,则将该候选实体对作为匹配实体对。

5.根据权利要求1所述的方法,其特征在于,对缺失的实体属性值进行补充的方法为通过爬虫从网络获取或进行人工填充。

6.根据权利要求1所述的方法,其特征在于,所述图数据索引信息为三元组格式的图数据在所述数据平台的存储地址及其元数据。

7.一种知识图谱的数据融合装置,其特征在于,包括数据平台、数据预处理模块、实体分区模块、实体匹配模块和实体融合模块,其中:

所述数据平台配置有统一访问接口;

所述数据预处理模块用于将来自不同数据源的数据进行处理后转换为三元组格式,通过所述统一访问接口存储到数据平台,并接收所述数据平台返回的图数据索引信息;

所述实体分区模块根据所述数据预处理模块输出的图数据索引信息,将所述数据平台中存储的实体按属性划分为一个或多个子分区;

所述实体匹配模块用于将所述实体分区模块划分到相同子分区中的候选实体对进行相似度计算,筛选出满足预设相似度条件的匹配实体对;

所述实体融合模块用于对所述实体匹配模块筛选出的匹配实体对的实体属性值进行补充和/或替换,生成统一的实体表示。

8.根据权利要求7所述的装置,其特征在于,所述实体分区模块包括等值分区子模块和/或聚类分区子模块;

所述等值分区子模块用于根据实体属性产生的全局唯一分区键对存储在数据平台中的实体进行等值划分;

所述聚类分区子模块基于预设聚类模型对存储在数据平台中的实体进行划分;

所述实体匹配模块具体包括相似度计算子模块和比较子模块;

所述相似度计算子模块用于为实体本身的属性以及与该实体相关的其他实体的属性分别设置不同的权重,加权求和计算候选实体对的总体相似度;

所述比较子模块用于判断相同子分区中的候选实体对的总体相似度是否超过预设相似度阈值,若是,则将该候选实体对作为匹配实体对。

9.根据权利要求7所述的装置,其特征在于,所述装置还包括数据处理模块和/或属性对齐模块;

所述数据处理模块用于通过所述统一访问接口对数据平台中的节点实体数据和边实体数据进行处理,并返回数据处理结果传递给下一个模块;

所述属性对齐模块用于将来自多个数据源的经所述数据预处理模块处理后存储在数据平台中的实体根据其属性的实际含义进行对齐。

10.一种存储介质,其特征在于,所述存储介质存储有用于执行权利要求1~6任一所述的方法的程序。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于颖投信息科技(上海)有限公司,未经颖投信息科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811635696.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top