[发明专利]基于sql语义自动解析的数据血统分析系统及方法在审

申请号：	201710228087.1	申请日：	2017-04-07
公开（公告）号：	CN107169023A	公开（公告）日：	2017-09-15
发明（设计）人：	陶波;许飞月;陈乐焱	申请（专利权）人：	广东精点数据科技股份有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	重庆强大凯创专利代理事务所(普通合伙)50217	代理人：	隋金艳,陈家辉
地址：	510630 广东省广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 sql 语义自动解析数据血统分析系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及数据血统分析领域，具体涉及一种基于sql语义自动解析的数据血统分析系统及方法。

背景技术

数据血统(Lineage，Provenance，Pedigree)亦可译为(血缘、起源、世系、谱系)，是近几年随着数据库和网络的发展而发展起来的一个研究领域，其内容主要包括数据血统的计算、存储、传播和查询等。对于数据库系统，有时需要追溯查询结果的来源，以衡量数据的可信度、数据的质量等。

随着信息技术的快速发展，企业内部积累了越来越多的数据资产，为了支持管理决策，充分挖掘数据价值，企业需要对大量的源数据进行数据处理和分析，随着数据量的增多、业务的复杂性增加，数据的处理和分析过程也越来越复杂，这就使得数据的变化难以监控跟踪，用户对数据的信任程度降低，专家流失会导致重大的数据问题发生，底层的模型结构难以变更，分析人员需要花费大量的时间来手动进行数据的血统分析。

针对这个问题，目前有很多数据血统分析的方法，主要是基于ETL(Extract-Transform-Load，数据仓库)处理过程的分析系统，这种系统可以对数据的ETL过程进行记录，记录数据的变化过程作为元数据，后续通过对元数据的解析，生成特点数据的血统图。但是这种系统仅能解决数据利用工具进行ETL处理的情况，对于通过数据库管理工具利用sql脚本处理的数据不适用。

因此鉴于上述缺陷，有必要设计一种基于sql脚本语义自动解析的数据血统分析系统。

发明内容

本发明意在提供一种能够通过数据库管理工具利用sql脚本处理的数据进行数据血统分析的基于sql语义自动解析的数据血统分析系统。

为达到以上目的，提供如下方案：

方案一：基于sql语义自动解析的数据血统分析系统，包括依次连接的sql预处理模块、血统识别模块和血统展现模块；

所述sql预处理模块，建立关键字规则库，从待检测数据所在的数据库中读取待检测的数据模型结构和数据处理的sql脚本，并对数据处理的sql脚本进行分解，形成脚本分析表；

所述血统识别模块对sql预处理模块中读取的数据处理的sql脚本进行关键字识别，并对关键字对应的数据处理的sql脚本进行血统信息提取，并将血统信息存储至脚本分析表中；

所述血统展现模块对脚本分析表中的血统信息进行顺序整合并展现血统连接的过程。

工作原理：

sql预处理模块根据预先输入的关键字建立关键字规则库。工作时，sql预处理模块从待检测数据所在的数据库中读取待检测的数据模型结构和数据处理的sql脚本，并对数据处理的sql脚本进行分解，形成脚本分析表；然后，血统识别模块对sql预处理模块中读取的数据处理的sql脚本进行关键字识别，并对关键字对应的数据处理的sql脚本进行血统信息提取，并将血统信息存储至脚本分析表中；最后，血统展现模块对脚本分析表中的血统信息进行顺序整合并展现血统连接的过程。

有益效果：

每段sql脚本都对应一个关键字，通过关键字来自动解析每个sql脚本，使在脚本分析表中有联系的sql脚本形成可追溯的血统关系。采用该系统相比人工检测节省了大量时间和精力。其次弥补了传统只对ETL过程进行分析的不足，补充了血统分析的方法。

方案二：在方案一的基础上进一步，所述sql预处理模块，包括依次连接的关键字规则库建立单元、数据模型及数据处理的sql脚本提取单元以及脚本分解单元；

所述关键字规则库建立单元，建立关键字规则库，收集关键字，确定每个关键字的结构并规范结构中的血统变化流向；

所述数据模型及数据处理的sql脚本提取单元从待检测数据所在的数据库中读取待检测的数据模型结构和数据处理的sql脚本；

所述脚本分解单元对数据模型及数据处理的sql脚本提取单元中的数据处理的sql脚本按照最小的操作单元进行分段，并且按sql执行顺序进行编号，然后对每段sql脚本细化分解并存储至脚本分析表。

方案三：在方案一的基础上进一步，所述血统识别模块，包括依次连接的关键字发现单元和血统提取单元；

所述关键字发现单元，通过规则库建立单元中建立的关键字规则库，对脚本分解单元中的数据处理的sql脚本进行关键字匹配，并将关键字存储至脚本分析表；

所述血统提取单元根据关键字规则库中的关键字语句结构以及上游和下游的血统规范，对脚本分析表中的脚本信息进行匹配，确定血统变化的流向，并记录于脚本分析表中。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广东精点数据科技股份有限公司，未经广东精点数据科技股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】