[发明专利]一种数据清洗方法、装置及计算机可读存储介质在审
申请号: | 202110504597.3 | 申请日: | 2021-05-10 |
公开(公告)号: | CN113204544A | 公开(公告)日: | 2021-08-03 |
发明(设计)人: | 宫磊;曾凌菲;黄蔚;詹浩龙;温境鹏;林逸超 | 申请(专利权)人: | 深圳技术大学 |
主分类号: | G06F16/215 | 分类号: | G06F16/215 |
代理公司: | 深圳市恒申知识产权事务所(普通合伙) 44312 | 代理人: | 龙丹丹 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 清洗 方法 装置 计算机 可读 存储 介质 | ||
本发明公开了一种数据清洗方法、装置及计算机可读存储介质,从公交IC卡数据中获取待清洗脏数据;从数据清洗规则库中调用对应于待清洗脏数据的目标清洗规则;基于目标清洗规则生成相应数据清洗代码;通过执行数据清洗代码,对待清洗脏数据进行清洗。通过本发明的实施,针对不同类型脏数据,相应设置以数据清洗规则库为基础的清洗任务,可以把混乱的数据转化为干净整洁的高质量数据,增强了大数据可用性,提升大数据决策效率以及提高了大数据清洗的效率和精准度,且大幅降低公交出行大数据的决策分析复杂度。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据清洗方法、装置及计算机可读存储介质。
背景技术
数据清洗是指发现并纠正数据文件中可识别的错误,主要包括检查数据的一致性,处理数据中的无效值和缺失值等。在公交IC卡数据系统中,往往会因为公交IC卡数据在全国各地由于制式和用途略有差异的原因或者IC卡数据在设备工作或传输故障等原因,公交数据中必然会存在数据错误、时间点不规范、丢失等质量问题,平均错误率在1.5%。除了由于系统、设备等客观因素造成的错误数据信息之外,还有来自公共交通乘客方面的主观因素造成数据信息不准确等因素产生一些脏数据。
特别是目前数据量越来越大,数据清洗过程中需要花费的时间也越来越惊人,因此寻找一种即能规范地对数据进行清洗,又能保障数据清洗在合理的时间范围内完成的数据清洗方法是十分重要的。
发明内容
本发明实施例的主要目的在于提供一种数据清洗方法、装置及计算机可读存储介质,至少能够解决相关技术中提供的数据清洗方式的有效性和效率欠佳的问题。
为实现上述目的,本发明实施例第一方面提供了一种数据清洗方法,该方法包括:
从公交IC卡数据中获取待清洗脏数据;
从数据清洗规则库中调用对应于所述待清洗脏数据的目标清洗规则;
基于所述目标清洗规则生成相应数据清洗代码;
通过执行所述数据清洗代码,对所述待清洗脏数据进行清洗。
为实现上述目的,本发明实施例第二方面提供了一种数据清洗装置,该装置包括:
获取模块,用于从公交IC卡数据中获取待清洗脏数据;
调用模块,用于从数据清洗规则库中调用对应于所述待清洗脏数据的目标清洗规则;
生成模块,用于基于所述目标清洗规则生成相应数据清洗代码;
清洗模块,用于通过执行所述数据清洗代码,对所述待清洗脏数据进行清洗。
为实现上述目的,本发明实施例第三方面提供了一种电子装置,该电子装置包括:处理器、存储器和通信总线;
所述通信总线用于实现所述处理器和存储器之间的连接通信;
所述处理器用于执行所述存储器中存储的一个或者多个程序,以实现上述任意一种数据清洗方法的步骤。
为实现上述目的,本发明实施例第四方面提供了一种计算机可读存储介质,该计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述任意一种数据清洗方法的步骤。
根据本发明实施例提供的数据清洗方法、装置及计算机可读存储介质,从公交IC卡数据中获取待清洗脏数据;从数据清洗规则库中调用对应于待清洗脏数据的目标清洗规则;基于目标清洗规则生成相应数据清洗代码;通过执行数据清洗代码,对待清洗脏数据进行清洗。通过本发明的实施,针对不同类型脏数据,相应设置以数据清洗规则库为基础的清洗任务,可以把混乱的数据转化为干净整洁的高质量数据,增强了大数据可用性,提升大数据决策效率以及提高了大数据清洗的效率和精准度,且大幅降低公交出行大数据的决策分析复杂度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳技术大学,未经深圳技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110504597.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:液体喷出装置和液体喷出方法
- 下一篇:一种脊柱外科用复位器械
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置