[发明专利]基于neo4j大数据血缘关系管理方法、系统、设备及存储介质在审

专利信息
申请号: 201811196013.5 申请日: 2018-10-15
公开(公告)号: CN109446279A 公开(公告)日: 2019-03-08
发明(设计)人: 邓燕辉;蔡适择;姚小龙;曾昭正;唐国凯;张文斌 申请(专利权)人: 顺丰科技有限公司
主分类号: G06F16/28 分类号: G06F16/28
代理公司: 北京志霖恒远知识产权代理事务所(普通合伙) 11435 代理人: 刘进
地址: 518061 广东省深圳市南山区学府路(以南)*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 血缘关系 抽象语法树 大数据 数据源 存储介质 节点数据 采集 图形化展现 图形数据库 异构数据源 元数据管理 必要信息 关系存储 节点采集 内部数据 深度遍历 依赖关系 流转 解析 存储 打通 管理 引入 桥梁
【说明书】:

发明涉及基于neo4j大数据血缘关系管理方法、系统、设备及存储介质。方法包括以下步骤:解析SQL语句,生成相应的抽象语法树,对于每个抽象语法树,深度遍历该抽象语法树的每个节点,在每个节点采集相应的节点数据;将采集的节点数据关系存储于neo4j图形数据库,将采集的必要信息存储于HBase;将异构数据源的信息引入血缘关系系统,形成血缘关系。便于图形化展现各数据源、Hive表间的依赖关系和血缘关系。提升了大数据平台元数据管理能力的层次,加强了对平台内部数据流转的把控,理清数据的来龙去脉,打通了各异构数据源的隔阂,血缘关系作为一座桥梁,连接了各数据源。

技术领域

本发明涉及数据库技术领域,尤其涉及基于neo4j大数据血缘关系管理方法、系统、设备及存储介质。

背景技术

大数据时代,数据蕴藏着无限的价值。移动互联网的蓬勃发展,让各互联网公司积累了PB级别的用户数据和业务数据。在强大的需求驱动下,大数据技术也稳步成熟发展,通过HDFS,HBase,MongoDB,Kafka等存储组件,记录下了海量且持续增加的数据。

数据的产生、加工融合、流转流通,到最终消亡,数据之间自然会形成一种关系。借鉴人类社会中类似的一种关系来表达数据之间的这种关系,称之为数据的血缘关系。

随着大数据的崛起,数据挖掘对于企业来说显得越来越重要。目前基于数据挖掘的开源解决方案有2种,WhereHows系统和Atlas系统。WhereHows系统,其所依赖组件非常多,而且github上的项目,文档滞后非常严重,编译会遇到非常多的问题,对于一个开源项目,这是致命伤,对使用者非常不友好。而且其依赖Azkaban,不支持字段级别的血缘。

而Atlas也是一个庞大的系统,需要依赖titan,solr等。研究人员尝试修改其元数据存储组件为HBase,但Atlas却只支持非常低级别的Hbase。对于ElasticSearch也是同样的问题,Atlas也只支持非常低级别ElasticSearch。若大数据团队为Atlas系统维护两个低级别的HBase和ElasticSearch,则成本太大。

发明内容

为了解决上述技术问题,本发明的目的在于提供基于neo4j大数据血缘关系管理方法、系统、设备及存储介质。

根据本发明的一个方面,提供了基于neo4j大数据血缘关系管理方法,包括以下步骤:

解析SQL语句,生成相应的抽象语法树,对于每个抽象语法树,深度遍历该抽象语法树的每个节点,在每个节点采集相应的节点数据;

将采集的节点数据关系存储于neo4j图形数据库,将采集的必要信息存储于HBase;

将异构数据源的信息引入血缘关系系统,形成血缘关系。

作为优选,采用Antlr语法分析工具,进行语法、词法和语义分析,生成相应的抽象语法树。

作为优选,基于neo4j大数据血缘关系管理方法还包括:

针对neo4j建立索引,优化查询语句。

作为优选,所述相应的节点数据包括源数据表、目标数据表、源数据表字段和目标数据表字段。

作为优选,所述的必要信息包括Hive SQL语句及运行Hive SQL的时间。

作为优选,将异构数据源的信息引入血缘关系系统,形成血缘关系,包括:

打通内部的ETL系统和接入分发系统,获取定位唯一数据源的数据信息并引入血缘关系系统。

根据本发明的另一个方面,提供了基于neo4j大数据血缘关系管理系统,包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于顺丰科技有限公司,未经顺丰科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811196013.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top