[发明专利]一种快速清洗、转换的数据抽取方法在审
申请号: | 201910901424.8 | 申请日: | 2019-09-23 |
公开(公告)号: | CN110795423A | 公开(公告)日: | 2020-02-14 |
发明(设计)人: | 汤同伟;何静;霍荣 | 申请(专利权)人: | 紫光云(南京)数字技术有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/25 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210000 江苏省南京市浦口区江浦街*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种快速清洗、转换的数据抽取方法,涉及数据抽取技术领域。本发明包括读取数据内容到内存数据库中,将数据内容分组形成若干数据段,建立多线程并为每个线程分配待处理数据块,各线程独立对数据块完成清洗和转换,将转换后的数据块合并存储到内存数据库中。本发明通过任务调度处理器判断当前线程内当前数据段与其他数据块是否存在汇总关联;若存在,在数据块清洗后对汇总关联的若干数据块汇总并重新拆分形成新数据块,并采用多线程对新数据块转换;若不存在,直接对当前数据块进行清洗、转换;最后待所有数据块清洗转换完成后,通过数据合并处理器合并,提高数据抽取效率,适用于海量数据的清洗和转换。 | ||
搜索关键词: | 数据块 转换 清洗 数据抽取 内存数据库 新数据块 多线程 数据段 待处理数据块 关联 处理器判断 若干数据块 海量数据 合并存储 快速清洗 任务调度 数据合并 数据内容 线程分配 处理器 线程 分组 合并 | ||
【主权项】:
1.一种快速清洗、转换的数据抽取方法,其特征在于,包括如下步骤:/nS00:通过数据读取处理器读取数据内容到内存数据库中;/n其中,所述数据内容包括存储数据和内存数据库的连接配置信息;/nS01:通过数据拆分处理器将数据内容分组形成若干数据段;/nS02:通过任务调度处理器建立多线程并为每个线程分配待处理数据块;/nS03:所述任务调度处理器判断当前线程内当前数据段与其他数据块是否存在汇总关联;若是,则执行S04;若是,则执行S07;/nS04:采用清洗执行器对数据块清洗后,所述任务调度处理器将具有汇总关联的若干数据块汇总形成汇总数据;/nS05:所述任务调度处理器调用数据拆分器对汇总数据拆分形成若干新数据块;/nS06:所述任务调度处理器建立多线程并为每个线程分配待处理的新数据块并调用转换处理器对新数据块转换;/nS07:所述任务调度处理器调度清洗执行器对当前数据块清洗后再调度转换执行器对当前数据进行数据转换;/nS08:通过数据合并处理器对全部完成转换的数据块进行合并形成合并数据;/nS09:将抽取的所述合并数据存储到内存数据库中。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于紫光云(南京)数字技术有限公司,未经紫光云(南京)数字技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910901424.8/,转载请声明来源钻瓜专利网。