[发明专利]数据清理方法在审
申请号: | 201910308949.0 | 申请日: | 2019-04-17 |
公开(公告)号: | CN110162519A | 公开(公告)日: | 2019-08-23 |
发明(设计)人: | 张礼成 | 申请(专利权)人: | 苏宁易购集团股份有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/2455 |
代理公司: | 北京市万慧达律师事务所 11111 | 代理人: | 黄玉东 |
地址: | 210000 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 清洗 数据流 判定规则 删除 数据安全性 第一数据 过滤处理 获取数据 数据建立 数据清理 数据清洗 数据输出 数据源 预设 字段 填充 检测 申请 | ||
本申请涉及一种数据清洗方法。所述方法包括:从第一数据源中获取数据,利用获取的数据建立一个独立的数据流;对所述数据流中的数据进行过滤处理,得到待清洗数据;对所述待清洗数据中包含缺失值的字段进行删除或填充,得到初步清洗数据;检测所述初步清洗数据是否符合预设的判定规则,删除不符合判定规则的数据,得到最终清洗数据;将所述最终清洗数据输出到第二数据源。采用本方法能够提高数据安全性。
技术领域
本申请涉及大数据处理技术领域,特别是涉及一种数据清理方法。
背景技术
随着网络时代的到来,大量信息数据持续不断地涌入网络,数据量以每年50%的速度在增长。在庞大的数据来源支持下,企业决策越来越以数据分析为基础,而非传统的仅仅依靠经验和直觉。数据清洗是整个数据分析过程中不可缺少的一个环节,其结果质量直接关系到模型效果和最终的数据分析结论。数据清洗是指对数据进行重新审核和校验的过程,目的在于删除重复数据,纠正存在的错误,并保证数据一致性。在实际操作中,数据清洗通常会占据数据分析过程的50%—80%的时间。
数据清洗包括离线数据清洗和实时数据清洗两类,离线数据清洗可以通过牺牲性能的方式,借助复杂的处理对数据进行更细粒度的清洗,包括缺失值处理、异常值处理、重复值处理、空值填充、统一单位、是否标准化处理、是否删除无必要的变量以及是否排序等;相比于离线数据清洗,实时数据清洗因为实时要求,更倾向于数据的缺值填充、过滤以及数据合法性检查,但是现有的数据清理过程通常与数据分析过程是一体的,两者耦合性大,数据清理过程受到数据分析其他代码作用的影响大,容易发生数据丢失,数据的安全性较差。
发明内容
基于此,有必要针对上述技术问题,提供一种数据清洗方法,能够提高数据安全性。
一种数据清洗方法,方法包括:
从第一数据源中获取数据,利用获取的数据建立一个独立的数据流;
对数据流中的数据进行过滤处理,得到待清洗数据;
对待清洗数据中包含缺失值的字段进行删除或填充,得到初步清洗数据;
检测初步清洗数据是否符合预设的判定规则,删除不符合判定规则的数据,得到最终清洗数据;
将最终清洗数据输出到第二数据源。
在其中一个实施例中,所述对待清洗数据中包含缺失值的字段进行删除或填充包括:
根据字段的缺失值条数占总条数的比例,计算得到字段的缺失率;
根据需要分析的指标,确定字段的属性重要程度;
根据字段的缺失率和属性重要程度,对包含缺失值的字段进行删除或填充。
在其中一个实施例中,所述根据字段的缺失率和属性重要程度,对包含缺失值的字段进行删除或填充包括:
当字段的缺失率低于预设的缺失率阈值且属性重要程度低于预设的重要评级阈值时,对字段进行填充;
当字段的缺失率不低于预设的缺失率阈值且属性重要程度低于预设的重要评级阈值时,删除字段;
当字段的缺失率不低于预设的缺失率阈值且属性重要程度高于预设的重要评级阈值时,对字段的缺失值进行补全。
在其中一个实施例中,该方法还包括:
探查第一数据源中数据的描述数据属性的元数据,根据所述元数据分析得到数据存在的质量问题,根据质量问题设定过滤规则;
所述对数据流中的数据进行过滤处理,得到待清洗数据,包括:根据所述过滤规则对数据流中的数据进行过滤处理,得到待清洗数据。
在其中一个实施例中,所述对数据流中的数据进行过滤处理包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏宁易购集团股份有限公司,未经苏宁易购集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910308949.0/2.html,转载请声明来源钻瓜专利网。