[发明专利]一种快速清洗、转换的数据抽取方法在审
申请号: | 201910901424.8 | 申请日: | 2019-09-23 |
公开(公告)号: | CN110795423A | 公开(公告)日: | 2020-02-14 |
发明(设计)人: | 汤同伟;何静;霍荣 | 申请(专利权)人: | 紫光云(南京)数字技术有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/25 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210000 江苏省南京市浦口区江浦街*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据块 转换 清洗 数据抽取 内存数据库 新数据块 多线程 数据段 待处理数据块 关联 处理器判断 若干数据块 海量数据 合并存储 快速清洗 任务调度 数据合并 数据内容 线程分配 处理器 线程 分组 合并 | ||
本发明公开了一种快速清洗、转换的数据抽取方法,涉及数据抽取技术领域。本发明包括读取数据内容到内存数据库中,将数据内容分组形成若干数据段,建立多线程并为每个线程分配待处理数据块,各线程独立对数据块完成清洗和转换,将转换后的数据块合并存储到内存数据库中。本发明通过任务调度处理器判断当前线程内当前数据段与其他数据块是否存在汇总关联;若存在,在数据块清洗后对汇总关联的若干数据块汇总并重新拆分形成新数据块,并采用多线程对新数据块转换;若不存在,直接对当前数据块进行清洗、转换;最后待所有数据块清洗转换完成后,通过数据合并处理器合并,提高数据抽取效率,适用于海量数据的清洗和转换。
技术领域
本发明属于数据抽取技术领域,特别是涉及一种快速清洗、转换的数据抽取方法。
背景技术
数据集成是把不同来源、格式和特点的数据在逻辑上或物理上有机地集中,从而提供全面的数据共享,是企业商务智能、数据仓库系统的重要组成部分。ETL是企业数据集成的主要解决方案。ETL中三个字母分别代表的是Extract、Transform、Load,即抽取、转换、加载。数据抽取是从数据源中抽取数据的过程。实际应用中,数据源有传统的关系型数据库、也有非关系型数据库,现有的ETL工具在抽取的方面已经做的很全面,支持数据库类型很全面;现在数据抽取速度的瓶颈主要有数据源提供数据的性能、数据清洗、数据转换、数据加载四个方面决定了数据集成的整体的性能。
现有的NiFi能够对数据源抽取的数据进行清洗、转换,其实现数据的处理是以数据流的方式对数据进行处理;存在如下弊端:a、非内存数据库;b、数据清洗、数据转换都是一条一条的调用清洗规则、转换规则进行处理的;数据清洗、数据转换一条一条执行,影响数据处理速度,在大数据背景下很难满足当下的数据处理需求。
本发明提供一种快速清洗、转换的数据抽取方法,通过将数据读入内存数据库中,然后通过数据分组算法完成数据切分,生成多个任务并发执行,最后结果汇总输出,提高数据处理速度,适用于海量数据的处理。
发明内容
本发明的目的在于提供一种快速清洗、转换的数据抽取方法,通过任务调度处理器判断当前线程内当前数据段与其他数据块是否存在汇总关联;若存在,在数据块清洗后对汇总关联的若干数据块汇总并重新拆分形成新数据块,并采用多线程对新数据块转换;若不存在,直接对当前数据块进行清洗、转换;最后待所有数据块清洗转换完成后,通过数据合并处理器合并,提高数据抽取效率,适用于海量数据的清洗和转换。
为解决上述技术问题,本发明是通过以下技术方案实现的:
本发明为一种快速清洗、转换的数据抽取方法,包括如下步骤:
S00:通过数据读取处理器读取数据内容到内存数据库中;
其中,所述数据内容包括存储数据和内存数据库的连接配置信息;
S01:通过数据拆分处理器将数据内容分组形成若干数据段;
S02:通过任务调度处理器建立多线程并为每个线程分配待处理数据块;
S03:所述任务调度处理器判断当前线程内当前数据段与其他数据块是否存在汇总关联;若是,则执行S04;若是,则执行S07;
S04:采用清洗执行器对数据块清洗后,所述任务调度处理器将具有汇总关联的若干数据块汇总形成汇总数据;
S05:所述任务调度处理器调用数据拆分器对汇总数据拆分形成若干新数据块;
S06:所述任务调度处理器建立多线程并为每个线程分配待处理的新数据块并调用转换处理器对新数据块转换;
S07:所述任务调度处理器调度清洗执行器对当前数据块清洗后再调度转换执行器对当前数据进行数据转换;
S08:通过数据合并处理器对全部完成转换的数据块进行合并形成合并数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于紫光云(南京)数字技术有限公司,未经紫光云(南京)数字技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910901424.8/2.html,转载请声明来源钻瓜专利网。