[发明专利]数据自清洗方法、装置、电子设备及存储介质在审

专利信息
申请号: 202210107401.1 申请日: 2022-01-28
公开(公告)号: CN114490612A 公开(公告)日: 2022-05-13
发明(设计)人: 刘立力;顾超 申请(专利权)人: 湖南快乐阳光互动娱乐传媒有限公司
主分类号: G06F16/215 分类号: G06F16/215;G06F16/25;G06F16/22;G06F16/2457
代理公司: 北京集佳知识产权代理有限公司 11227 代理人: 王娇娇
地址: 410003 湖南省*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据 清洗 方法 装置 电子设备 存储 介质
【说明书】:

发明提供一种数据自清洗方法、装置、电子设备及存储介质,对于待处理的目标数据表和目标数据,能够获取该目标数据表的字段信息,由于字段信息能够表征该目标数据表中的第一字段及其之间的字段次序,因此在对目标数据中的每条数据执行解析操作确定其中的第二字段及其对应的字段值后,能够按照字段次序对第一字段和第二字段执行映射操作,以此确定每条数据于第一字段所对应的字段值。基于本发明,能够自动将非结构化数据的字段与数据表中的字段保持一致顺序,保证数据的准确性,即便后续数据表扩展字段,也能够通过字段信息实时确定扩展的字段,并继续与数据表中的字段保持一致,做到自适应清洗,极大减少人工核对的工作量,提升效率。

技术领域

本发明涉及大数据ETL(Extract-Transform-Load,抽取-转换-加载)数据清洗技术领域,更具体地说,涉及一种数据自清洗方法、装置、电子设备及存储介质。

背景技术

对于大数据hive数仓来说,数据清洗是建立数仓的第一步,其基本的功能就是根据hive数仓中数据表(即hive表)的字段将非结构化数据转为结构化数据,为后续的分析统计提供最原始的数据。而在数据清洗中,如何自动、精确的将非结构化数据的字段加载对应到hive表的字段成为最重要的步骤。

目前,数据清洗大多使用人工指定的UDF(User Defined Function,用户自定义函数)输出字段的方式来解析非结构化数据,这就要求UDF输出字段必须要按数据表的字段顺序与数据表中的字段一一对应,字段一旦错位就会导致整张数据表的数据错误。但大型hive数仓中数据表会有上百张之多、并且每张数据表的字段也可能会有上百个,因此就需要大量人工去核对UDF输出字段,从而带来极大的工作量,并且后续数据表一旦扩展字段,这对于UDF输出字段的修改和数据验证的工作量也是相当大的。

发明内容

有鉴于此,为解决上述问题,本发明提供一种数据自清洗方法、装置、电子设备及存储介质,技术方案如下:

一种数据自清洗方法,所述方法包括:

确定待处理的目标数据表和目标数据,所述目标数据为所述目标数据表对应的非结构化数据、且其中包含至少一条数据;

获取所述目标数据表对应的字段信息,所述字段信息能够表征所述目标数据表中的第一字段、以及所述第一字段间的字段次序;

针对所述目标数据中的每条数据,对该条数据执行解析操作,以确定该条数据中的第二字段、以及所述第二字段对应的字段值;按照所述字段次序对所述第一字段和所述第二字段执行映射操作,以确定该条数据于所述第一字段所对应的字段值。

优选的,所述获取所述目标数据表对应的字段信息,包括:

获取所述目标数据表对应的元数据信息表,所述元数据信息表中至少包含有序的字段元数据信息;

依次读取所述有序的字段元数据信息,以确定当前读取到的字段元数据信息所匹配的字段;

将所确定的字段依次写入至已确定的有序字段列表中,所述有序字段列表用于存储字段、且其中字段的次序与所述元数据信息表中字段元数据信息的次序相同。

优选的,所述方法还包括:

输出所述有序字段列表。

优选的,所述对该条数据执行解析操作,包括:

提取该条数据中的键值对,所述键值对中的键表征字段、所述键值对中的值表征字段值;

建立所述键值对中字段与字段值间的对应关系。

优选的,所述按照所述字段次序对所述第一字段和所述第二字段执行映射操作,包括:

按照所述字段次序在所述第二字段中确定与所述第一字段相匹配的目标字段;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南快乐阳光互动娱乐传媒有限公司,未经湖南快乐阳光互动娱乐传媒有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210107401.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top