[发明专利]一种基于Hadoop与Spark框架的交通大数据清洗方法及相关装置有效
申请号: | 201910798395.7 | 申请日: | 2019-08-27 |
公开(公告)号: | CN110502509B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 张绪升;谢侃;谢胜利 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/25;G06F16/2458;G06F16/182;G06F16/906;G06F18/2321;G06F18/15;G06F18/2433 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 黄忠;沈闯 |
地址: | 510060 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 hadoop spark 框架 交通 数据 清洗 方法 相关 装置 | ||
1.一种基于Hadoop与Spark框架的交通大数据清洗方法,其特征在于,包括:
搭建Hadoop集群;
搭建基于所述Hadoop集群的Spark集群;
对获取的交通大数据进行预处理;
通过配置用于清洗相似重复数据、缺失数据以及异常数据的清洗配置文件,建立数据清洗规则库;
对预处理后的所述交通大数据分配清洗任务,并利用预构建的树形结构将进入所述Spark集群的所述交通大数据进行流水线模式清洗,将满足预设要求的所述交通大数据保存至所述Hadoop集群的HDFS平台中;
所述用于清洗异常数据的清洗配置文件具体用于:
利用基于密度的局部离群因子检测算法,将数据集进行网格划分,形成数据子集;
利用网格剪枝技术剔除不存在离群点的数据子集后,计算数据子集中每个数据点的离群因子LOF值;
将所述离群因子LOF值大于LOF阈值的数据点作为异常数据进行剔除。
2.根据权利要求1所述的基于Hadoop与Spark框架的交通大数据清洗方法,其特征在于,所述对获取的交通大数据进行预处理具体包括:
对获取的交通大数据进行数据降维处理;
将所述交通大数据按照结构化数据、半结构化数据和非结构化数据进行分类;
将所述半结构化数据和所述非结构化数据转化为结构化数据,并进行数据的格式化。
3.根据权利要求1所述的基于Hadoop与Spark框架的交通大数据清洗方法,其特征在于,所述用于清洗相似重复数据的清洗配置文件具体用于:
采用随机抽样的方法在数据集中抽取第一预置数量的数据作为样本数据集;
将所述样本数据集中的记录投影成空间的点并归一化处理;
通过改进DBSCAN算法对所述样本数据集进行聚类,得到相似重复记录簇;
计算所述相似重复记录簇中各点的相似度,若所述相似重复记录簇中存在超过第二预置数量的点的相似度不在预设阈值范围内,则重新确定所述改进DBSCAN算法的全局半径值并返回重新聚类,否则完成聚类,并确定全局半径值;
去除聚类后的所述相似重复记录簇中的相似重复记录。
4.根据权利要求3所述的基于Hadoop与Spark框架的交通大数据清洗方法,其特征在于,所述完成聚类,并确定全局半径值后,在所述去除聚类后的所述相似重复记录簇中的相似重复记录前还包括:
通过N-Gram聚类算法对聚类后的所述相似重复记录簇进行二次聚类,得到二次聚类后的相似重复记录簇。
5.根据权利要求1所述的基于Hadoop与Spark框架的交通大数据清洗方法,其特征在于,所述用于清洗缺失数据的清洗配置文件具体用于:
遍历数据集后生成一元项集,并统计所述一元项集的频数;
构建元数据的属性值映射表;
根据所述属性值映射表中的分类属性,进行数据的属性转换;
采用最小支持度阈值和交叉支持模式,从所述一元项集起始进行非频繁项剪枝操作;
结合所述属性值映射表,进行循环项集增长操作,直到获取所有频繁项集;
根据所述频繁项集计算所有规则的置信度,并剔除小于最小置信度的频繁项,生成规则集;
利用所述规则集完成对缺失数据的字段填充。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910798395.7/1.html,转载请声明来源钻瓜专利网。