[发明专利]一种基于大数据和云计算的数据处理方法及云计算平台在审
申请号: | 202210169234.3 | 申请日: | 2022-02-23 |
公开(公告)号: | CN114595212A | 公开(公告)日: | 2022-06-07 |
发明(设计)人: | 陈强;游建 | 申请(专利权)人: | 深圳极联信息技术股份有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/25 |
代理公司: | 北京酷爱智慧知识产权代理有限公司 11514 | 代理人: | 阮建 |
地址: | 518000 广东省深圳市南山区西丽*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据 计算 数据处理 方法 平台 | ||
本发明公开了一种基于大数据和云计算的数据处理方法及云计算平台,包括步骤:S1,获取待处理的原始数据;S2,对原始数据进行缺失值清洗,得到缺失值清洗后数据;S3,对缺失值清洗后数据进行错误值清洗,得到错误值清洗后数据;错误值包括格式错误、拼写错误和属性域错误;S4,对错误值清洗后数据进行相似度重复记录清洗,得到重复清洗后数据。本发明利用云计算对大数据进行缺失值清洗、错误值清洗和相似度重复记录清洗,可有效提高大数据的质量。
技术领域
本发明涉及数据处理技术领域,尤其是一种基于大数据和云计算的数据处理方法及云计算平台。
背景技术
随着计算机技术尤其是数据库技术的快速发展和广泛应用,各行各业积累的数据量越来越大。人们已经评估出世界上信息的数量每20个月就会翻一番,并且数据库的数量与大小正在以更快的速度增长。
大数据隐含着极大的价值,人们越来越希望从大量的数据中挖掘出有价值的信息供管理、决策和调控参考使用。目前数据挖掘技术取得了极大的发展,它已经在众多领域取得了广泛的应用。如果能对大数据进行有效地处理,将极大地推动社会经济和科学研究的发展。一般情况下,数据处理中总是假设获取的数据是“干净”和一致的。然而,现实中获取的数据往往是冗余的、不完整的、含有噪声的,且这些数据存在不一致性,这样的数据被统称为“脏数据”,他们严重影响了数据利用的效率和决策质量。根据“垃圾进,垃圾出”原理,若不进行清洗,这些脏数据会影响真实的信息,为企业构建数据仓库、建立决策支持系统、应用商务智能带来隐患。如何充分利用海量数据,提高数据质量,为决策支持系统提供正确的数据,实现从数据到信息、信息到知识的提炼,从而为企业的生产经营做出正确决策提供服务,已经成为亟待解决的问题。因此,为了使系统中的数据更加准确、一致,能够支持正确决策,对数据的清洗处理就显得尤为重要。
发明内容
针对现有技术中的缺陷,本发明提供了一种基于大数据和云计算的数据处理方法及云计算平台,可提高大数据的质量。
第一方面,本发明提供了一种基于大数据和云计算的数据处理方法,包括以下步骤:
S1,获取待处理的原始数据;
S2,对所述原始数据进行缺失值清洗,得到缺失值清洗后数据;
S3,对所述缺失值清洗后数据进行错误值清洗,得到错误值清洗后数据;所述错误值包括格式错误、拼写错误和属性域错误;
S4,对所述错误值清洗后数据进行相似度重复记录清洗,得到重复清洗后数据。
优选地,所述数据处理方法基于Spark-ETL框架。
优选地,所述Spark-ETL框架包括:
配置单元,用于对清洗流程进行配置,构建大数据清洗流水线;所述大数据清洗流水线包括多个细分的大数据清洗操作单元;
解析单元,用于对所述大数据清洗流水线进行解析,得到清洗任务;
Spark集群,用于根据所述清洗任务对所述原始数据进行清洗。
优选地,所述步骤S4具体包括以下步骤:
S41,根据所述错误值清洗后数据特点设定N个属性字段,根据所述属性字段创建一个索引;
S42,将所述错误值清洗后数据按照所述索引进行排序;
S43,在已经排序好的所述错误值清洗后数据上划定一个大小为M的滑动窗口;
S44,将所述窗口内的第一条记录与剩下的M-1条记录进行比较,删除所述剩下的M-1条记录中与所述第一条记录相似度值大于预设相似度阈值的记录;
S45,循环步骤S44,直至所述窗口中的第一条记录与剩下的M-1条记录的相似度值均小于等于预设相似度阈值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳极联信息技术股份有限公司,未经深圳极联信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210169234.3/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置