[发明专利]一种数据清洗方法、装置、电子设备和介质在审
申请号: | 202110713685.4 | 申请日: | 2021-06-25 |
公开(公告)号: | CN113535696A | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 罗京;潘广进;何鹏;周礼;刘小林 | 申请(专利权)人: | 中国民生银行股份有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F9/50 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100031 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 清洗 方法 装置 电子设备 介质 | ||
本发明实施例提供了一种数据清洗方法、装置、电子设备和可读存储介质,所述方法包括:在数据处理平台对业务数据进行清洗之前,获取所述业务数据的数据信息,获取用户输入的针对所述业务数据的数据清洗策略,以及获取用户根据当前可用集群资源分配的用于清洗所述业务数据的第一计算资源信息;根据所述业务数据的数据信息确定清洗所述业务数据所需分配的第二计算资源信息;根据所述数据清洗策略,从所述第一计算资源信息和所述第二计算资源信息中确定最优计算资源信息;采用所述最优计算资源信息申请集群资源后,按照所述集群资源和所述数据清洗策略对所述业务数据进行清洗。根据本发明实施例,可以避免由于开发人员导致的计算资源预估失误问题。
技术领域
本发明涉及数据库技术领域,特别是涉及一种数据清洗方法、一种数据清洗装置、一种电子设备和一种计算机可读存储介质。
背景技术
数据在生成、传输和使用过程中,可能会由于人为操作失误、网络异常或系统逻辑错误等原因,产生一些“脏数据”,包括主键重复、字段异常、类型异常、码值异常等,通常是通过数据清洗将这些异常数据进行过滤或修复。
传统的数据清洗是通过数据库技术或清洗工具,通过设定清洗指标进行清洗的。但这种清洗方式依赖于清洗工具或数据库技术,当需要对海量数据进行数据清洗时,则会导致耗时过长,并且可能会影响正常数据库的使用。传统的数据清洗方式对不同数据需要定制化开发相应的清洗程序,通用性较差,也不适用于Hadoop(Hadoop Distributed FileSystem)大数据生态圈。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种数据清洗方法和相应的一种数据清洗装置、一种电子设备,以及一种计算机可读存储介质。
本发明实施例公开了一种数据清洗方法,所述方法包括:
在数据处理平台对业务数据进行清洗之前,获取所述业务数据的数据信息,获取用户输入的针对所述业务数据的数据清洗策略,以及获取用户根据当前可用集群资源分配的用于清洗所述业务数据的第一计算资源信息;
根据所述业务数据的数据信息确定清洗所述业务数据所需分配的第二计算资源信息;
根据所述数据清洗策略,从所述第一计算资源信息和所述第二计算资源信息中确定最优计算资源信息;
采用所述最优计算资源信息申请集群资源后,按照所述集群资源和所述数据清洗策略对所述业务数据进行清洗。
可选地,所述业务数据的数据信息包括所述业务数据的数据量和数据记录数目,所述第二计算资源信息包括所述数据处理平台中的进程资源信息,所述根据所述业务数据的数据信息确定清洗所述业务数据所需分配的第二计算资源信息,包括:
根据所述业务数据的数据量和数据记录数目,计算清洗所述业务数据,所述数据处理平台所需分配的所述进程资源信息。
可选地,所述数据清洗策略包括多个数据清洗规则,所述根据所述数据清洗策略,从所述第一计算资源信息和所述第二计算资源信息中确定最优计算资源信息,包括:
若所述数据清洗策略中包含的数据清洗规则的数量大于预设的数量阈值,且所述数据清洗策略中包含预设的数据清洗规则,则从所述第一计算资源信息和所述第二计算资源信息中确定最大计算资源信息,并将所述最大计算资源信息确定为所述最优计算资源信息;
若所述数据清洗策略中包含的数据清洗规则的数量不大于所述预设的数量阈值,且所述数据清洗策略中不包含所述预设的数据清洗规则,则从所述第一计算资源信息和所述第二计算资源信息中确定最小计算资源信息,并将所述最小计算资源信息确定为所述最优计算资源信息。
可选地,所述采用所述最优计算资源信息申请集群资源后,按照所述集群资源和所述数据清洗策略对所述业务数据进行清洗,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国民生银行股份有限公司,未经中国民生银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110713685.4/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置