[发明专利]数据自清洗方法、装置、电子设备及存储介质在审

专利信息
申请号: 202210107401.1 申请日: 2022-01-28
公开(公告)号: CN114490612A 公开(公告)日: 2022-05-13
发明(设计)人: 刘立力;顾超 申请(专利权)人: 湖南快乐阳光互动娱乐传媒有限公司
主分类号: G06F16/215 分类号: G06F16/215;G06F16/25;G06F16/22;G06F16/2457
代理公司: 北京集佳知识产权代理有限公司 11227 代理人: 王娇娇
地址: 410003 湖南省*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据 清洗 方法 装置 电子设备 存储 介质
【权利要求书】:

1.一种数据自清洗方法,其特征在于,所述方法包括:

确定待处理的目标数据表和目标数据,所述目标数据为所述目标数据表对应的非结构化数据、且其中包含至少一条数据;

获取所述目标数据表对应的字段信息,所述字段信息能够表征所述目标数据表中的第一字段、以及所述第一字段间的字段次序;

针对所述目标数据中的每条数据,对该条数据执行解析操作,以确定该条数据中的第二字段、以及所述第二字段对应的字段值;按照所述字段次序对所述第一字段和所述第二字段执行映射操作,以确定该条数据于所述第一字段所对应的字段值。

2.根据权利要求1所述的方法,其特征在于,所述获取所述目标数据表对应的字段信息,包括:

获取所述目标数据表对应的元数据信息表,所述元数据信息表中至少包含有序的字段元数据信息;

依次读取所述有序的字段元数据信息,以确定当前读取到的字段元数据信息所匹配的字段;

将所确定的字段依次写入至已确定的有序字段列表中,所述有序字段列表用于存储字段、且其中字段的次序与所述元数据信息表中字段元数据信息的次序相同。

3.根据权利要求2所述的方法,其特征在于,所述方法还包括:

输出所述有序字段列表。

4.根据权利要求1所述的方法,其特征在于,所述对该条数据执行解析操作,包括:

提取该条数据中的键值对,所述键值对中的键表征字段、所述键值对中的值表征字段值;

建立所述键值对中字段与字段值间的对应关系。

5.根据权利要求1所述的方法,其特征在于,所述按照所述字段次序对所述第一字段和所述第二字段执行映射操作,包括:

按照所述字段次序在所述第二字段中确定与所述第一字段相匹配的目标字段;

确定所述目标字段所对应的字段值,并将所确定的字段值依次写入至已确定的有序数据列表中,所述有序数据列表用于存储字段值、且其中字段值的次序与所述字段次序相同。

6.根据权利要求5所述的方法,其特征在于,所述方法还包括:

输出所述有序数据列表。

7.一种数据自清洗装置,其特征在于,所述装置包括:

确定模块,用于确定待处理的目标数据表和目标数据,所述目标数据为所述目标数据表对应的非结构化数据、且其中包含至少一条数据;

获取模块,用于获取所述目标数据表对应的字段信息,所述字段信息能够表征所述目标数据表中的第一字段、以及所述第一字段间的字段次序;

清洗模块,用于针对所述目标数据中的每条数据,对该条数据执行解析操作,以确定该条数据中的第二字段、以及所述第二字段对应的字段值;按照所述字段次序对所述第一字段和所述第二字段执行映射操作,以确定该条数据于所述第一字段所对应的字段值。

8.根据权利要求7所述的装置,其特征在于,所述获取模块,具体用于:

获取所述目标数据表对应的元数据信息表,所述元数据信息表中至少包含有序的字段元数据信息;依次读取所述有序的字段元数据信息,以确定当前读取到的字段元数据信息所匹配的字段;将所确定的字段依次写入至已确定的有序字段列表中,所述有序字段列表用于存储字段、且其中字段的次序与所述元数据信息表中字段元数据信息的次序相同。

9.一种电子设备,其特征在于,所述电子设备包括:至少一个存储器和至少一个处理器;所述存储器存储有程序,所述处理器调用所述存储器存储的程序,所述程序用于实现权利要求1-6任意一项所述的一种数据自清洗方法。

10.一种存储介质,其特征在于,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1-6任意一项所述的一种数据自清洗方法。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南快乐阳光互动娱乐传媒有限公司,未经湖南快乐阳光互动娱乐传媒有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210107401.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top