[发明专利]数据清理方法在审
申请号: | 201910308949.0 | 申请日: | 2019-04-17 |
公开(公告)号: | CN110162519A | 公开(公告)日: | 2019-08-23 |
发明(设计)人: | 张礼成 | 申请(专利权)人: | 苏宁易购集团股份有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/2455 |
代理公司: | 北京市万慧达律师事务所 11111 | 代理人: | 黄玉东 |
地址: | 210000 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 清洗 数据流 判定规则 删除 数据安全性 第一数据 过滤处理 获取数据 数据建立 数据清理 数据清洗 数据输出 数据源 预设 字段 填充 检测 申请 | ||
1.一种数据清洗方法,所述方法包括:
从第一数据源中获取数据,利用获取的数据建立一个独立的数据流;
对所述数据流中的数据进行过滤处理,得到待清洗数据;
对所述待清洗数据中包含缺失值的字段进行删除或填充,得到初步清洗数据;
检测所述初步清洗数据是否符合预设的判定规则,删除不符合判定规则的数据,得到最终清洗数据;
将所述最终清洗数据输出到第二数据源。
2.根据权利要求1所述的方法,其特征在于,所述对所述待清洗数据中包含缺失值的字段进行删除或填充包括:
根据字段的缺失值条数占总条数的比例,计算得到字段的缺失率;
根据需要分析的指标,确定字段的属性重要程度;
根据字段的缺失率和属性重要程度,对所述包含缺失值的字段进行删除或填充。
3.根据权利要求2所述的方法,其特征在于,所述根据字段的缺失率和属性重要程度,对所述包含缺失值的字段进行删除或填充包括:
当字段的缺失率低于预设的缺失率阈值且属性重要程度低于预设的重要评级阈值时,对字段进行填充;
当字段的缺失率不低于预设的缺失率阈值且属性重要程度低于预设的重要评级阈值时,删除字段;
当字段的缺失率不低于预设的缺失率阈值且属性重要程度高于预设的重要评级阈值时,对字段的缺失值进行补全。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
探查第一数据源中数据的描述数据属性的元数据,根据所述元数据分析得到数据存在的质量问题,根据所述质量问题设定过滤规则;
所述对所述数据流中的数据进行过滤处理,得到待清洗数据,包括:根据所述过滤规则对所述数据流中的数据进行过滤处理,得到待清洗数据。
5.根据权利要求1至4任意一项所述的方法,其特征在于,所述对所述数据流中的数据进行过滤处理包括:
行级过滤,将数据中不需要的行剔除掉;
列级过滤,当一行具有多个列的时候,只选取并保留所需列对应的字段。
6.根据权利要求1至4任意一项所述的方法,其特征在于,所述预设的判定规则包括合法性规则和逻辑规则,所述检测所述初步清洗数据是否符合预设的判定规则包括:
如果所述初步清洗数据不符合所述合法性规则,将所述初步清洗数据设为符合所述合法性规则的最大值,或者删除;
如果所述初步清洗数据不符合所述逻辑规则,将所述初步清洗数据删除,并生成警告指令。
7.根据权利要求1所述的方法,其特征在于,所述第一数据源和第二数据源为同一分布式消息系统的不同数据类别,进一步地,所述分布式消息系统为Kafka,所述第一数据源和第二数据源为Kafka的两个不同的Topic;所述数据流采用基于Spark Streaming的数据流。
8.一种数据清洗装置,其特征在于,所述装置包括:
数据获取模块,用于从第一数据源中获取数据,利用获取的数据建立一个独立的数据流;
数据过滤模块,用于对所述数据流中的数据进行过滤处理,得到待清洗数据;
初步清洗模块,用于对所述待清洗数据中包含缺失值的字段进行删除或填充,得到初步清洗数据;
最终清洗模块,用于检测所述初步清洗数据是否符合预设的判定规则,删除不符合判定规则的数据,得到最终清洗数据;
数据输出模块,用于将所述最终清洗数据输出到第二数据源。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏宁易购集团股份有限公司,未经苏宁易购集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910308949.0/1.html,转载请声明来源钻瓜专利网。