[发明专利]数据质量大数据治理实现方法、电子设备及存储介质在审
申请号: | 201711252654.3 | 申请日: | 2017-12-01 |
公开(公告)号: | CN108132969A | 公开(公告)日: | 2018-06-08 |
发明(设计)人: | 王永才;庞伟林;余永忠;陈轶斌;宋才华;林浩;范婷;徐培瑶;刘胜强;蓝源娟 | 申请(专利权)人: | 广东电网有限责任公司佛山供电局 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F8/72;G06F9/451 |
代理公司: | 广州市越秀区哲力专利商标事务所(普通合伙) 44288 | 代理人: | 邵穗娟;汤喜友 |
地址: | 528200 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 页面数据 数据文件 预设规则 大数据 服务器 数据来源信息 治理 程序分析 存储介质 代码重构 电子设备 服务接口 规则标识 技术实现 数据支持 数据重构 自动生成 第三方 文档源 元数据 缺位 解析 数据库 发送 团队 厂商 保存 分类 封闭 开发 | ||
本发明公开了数据质量大数据治理实现方法,包括如下步骤:根据第一预设规则提取页面数据,将页面数据以第二预设规则进行分类,以构成对应类别相应的元数据;将页面数据基于程序分析技术进行代码重构,以自动生成服务接口;将页面数据、第一预设规则对应的规则标识和页面数据的数据来源信息进行组合形成数据文件,将该数据文件发送至服务器,以使服务器对数据文件进行解析和保存。本发明将数据支持实现API接口,不依赖于原厂商就可以数据重构,可以在数据库封闭、文档源码缺失、开发团队缺位、第三方商业构件的情况下,进行数据质量治理模式的技术实现。
技术领域
本发明涉及一种异构数据治理技术,尤其涉及数据治理大数据治理实现方法、电子设备及存储介质。
背景技术
目前,对于数据质量优化领域,业界主流使用集中式数据质量管理系统。传统集中式数据质量管理系统实现了校验规则规范化管理、规则执行时间调度、数据质量报告统一管理等能力,提高了数据质量校验的效率和管理水平。这种集中式数据质量管理系统局限性在于使用传统数据库集中式存储,当处理海量数据时容易出现性能瓶颈。
在数据治理过程中,数据采集是必不可少的一环,随着数据量日益增加,数据采集的挑战也变得尤为突出,其中包括:数据源多种多样,数据量大,变化快,如何保证数据采集的可靠性和性能,如何避免重复数据,如何保证数据的质量等挑战。目前在数据质量系统中主流的的数据采集方式数据库导出,常用的数据抽取工具有ETL(Extract-Transform-Load),其本质即是采用数据导库的原理;ETL工具分为两种,一种是数据库厂商自带的ETL工具,如Oracle warehouse builder、Oracle Data Integrator。也有第三方工具提供商,如Kettle;开源领域也有很多的ETL工具,功能各异,强弱不一。其他数据采集的方式例如:针对Web应用,Stanford University和MIT学者提出Webzeitgeist,在代理上部署浏览器内核渲染Web页面,再用爬虫抓取页面数据,该成果发表与国际顶级会议CHI;抓包技术:将网络传输发送与接收的数据包进行截获、重发、编辑、转存等操作,其获取的数据对象是在TCP/IP协议层,捕获的数据是客户端和服务器之间的会话序列,而并不直接关注数据对象的语义。此外,还有WebService,数据库中间库直连等传统数据传输方法。
但是,现有的技术存在以下缺陷:
以上常用的技术,如数据批量导入技术(以ETL为代表)的缺点在于首先导库技术需要提供数据库的权限,这点对于数据拥有者还是源系统开发商来说都难以协调,尤其是对于垂直系统,下级单位更是无法获得数据库的权限。其次还需要技术人员对源系统数据库的流程、数据字典等情况要非常熟悉,对项目实施周期影响较大;WebService方式需要业务系统以及数据接收方开发厂家开发服务接口才能进行数据交互,工程耗时量长,建设成本高。且以上提及的常用技术,均无法做到业务的交互和写入,比如A系统的数据写进到B系统中,或者将A和B系统的数据写入到C系统中。
发明内容
为了克服现有技术的不足,本发明的目的之一在于提供一种数据质量大数据治理实现方法,其可以解决异构系统之间数据交互问题,实现业务的交互。
本发明的目的之二在于提供一种电子设备,其可以实现本发明的目的之一。
本发明的目的之三在于提供一种计算机可读存储介质,其可实现本发明的目的之一。
本发明的目的之一采用如下技术方案实现:
数据质量大数据治理实现方法,包括如下步骤:
数据获取步骤:根据第一预设规则提取页面数据,将页面数据以第二预设规则进行分类,以构成对应类别相应的元数据;
代码重构步骤:将页面数据基于程序分析技术进行代码重构,以自动生成服务接口,所述程序分析技术包括源代码分析、字节码分析、界面截图快照分析和TCP流分析中的一种或多种;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东电网有限责任公司佛山供电局,未经广东电网有限责任公司佛山供电局许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711252654.3/2.html,转载请声明来源钻瓜专利网。