[发明专利]一种快速清洗、转换的数据抽取方法在审
申请号: | 201910901424.8 | 申请日: | 2019-09-23 |
公开(公告)号: | CN110795423A | 公开(公告)日: | 2020-02-14 |
发明(设计)人: | 汤同伟;何静;霍荣 | 申请(专利权)人: | 紫光云(南京)数字技术有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/25 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210000 江苏省南京市浦口区江浦街*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据块 转换 清洗 数据抽取 内存数据库 新数据块 多线程 数据段 待处理数据块 关联 处理器判断 若干数据块 海量数据 合并存储 快速清洗 任务调度 数据合并 数据内容 线程分配 处理器 线程 分组 合并 | ||
1.一种快速清洗、转换的数据抽取方法,其特征在于,包括如下步骤:
S00:通过数据读取处理器读取数据内容到内存数据库中;
其中,所述数据内容包括存储数据和内存数据库的连接配置信息;
S01:通过数据拆分处理器将数据内容分组形成若干数据段;
S02:通过任务调度处理器建立多线程并为每个线程分配待处理数据块;
S03:所述任务调度处理器判断当前线程内当前数据段与其他数据块是否存在汇总关联;若是,则执行S04;若是,则执行S07;
S04:采用清洗执行器对数据块清洗后,所述任务调度处理器将具有汇总关联的若干数据块汇总形成汇总数据;
S05:所述任务调度处理器调用数据拆分器对汇总数据拆分形成若干新数据块;
S06:所述任务调度处理器建立多线程并为每个线程分配待处理的新数据块并调用转换处理器对新数据块转换;
S07:所述任务调度处理器调度清洗执行器对当前数据块清洗后再调度转换执行器对当前数据进行数据转换;
S08:通过数据合并处理器对全部完成转换的数据块进行合并形成合并数据;
S09:将抽取的所述合并数据存储到内存数据库中。
2.根据权利要求1所述的一种快速清洗、转换的数据抽取方法,其特征在于,S00中所述数据读取处理器,用于从数据库或前输出节点将数据内容读取到内存数据库中。
3.根据权利要求1所述的一种快速清洗、转换的数据抽取方法,其特征在于,S01中所述数据拆分处理器,根据连接配置信息对存储数据按照条数或字节大小拆分成若干数据段。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于紫光云(南京)数字技术有限公司,未经紫光云(南京)数字技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910901424.8/1.html,转载请声明来源钻瓜专利网。