[发明专利]一种基于云计算框架的交通大数据清洗方法有效
申请号: | 201610517414.0 | 申请日: | 2016-06-28 |
公开(公告)号: | CN106202335B | 公开(公告)日: | 2019-06-28 |
发明(设计)人: | 温晓岳;沈坚;单振宇 | 申请(专利权)人: | 银江股份有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215 |
代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 |
地址: | 310012 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于云计算框架的交通大数据清洗方法,首先,扫描整个数据源,若存在缺失数据,根据相同路段数据所在维的邻近二次均值填充;然后,将具有相似数据变化规律的数据聚成一类,获得该路段数据的聚类中心;最后,新数据匹配距离最小的聚类中心编号,进行异常数据的更新或剔除。本发明在云计算(Hadoop的Map/Reduce)框架下,针对交通数据高维、海量、数据更新快的特点,利用集群系统的并行计算能力来解决面临的海量交通数据的快速清洗问题,能够快速且有效的挖掘交通数据相似性特征,用于清洗异常数据。 | ||
搜索关键词: | 一种 基于 计算 框架 交通 数据 清洗 方法 | ||
【主权项】:
1.一种基于云计算平台的交通大数据清洗方法,其特征在于:包括以下步骤:步骤1:缺失数据补全扫描整个数据源,若存在缺失数据,根据相同路段数据所在维的均值填充;需要根据数据产生的位置进行分发,由不同的子节点并行处理;步骤2:聚类获取路段特征数据将具有相似数据变化规律的数据聚成一类,获得该路段数据的特征值,所述特征值为聚类中心;每个聚类过程由不同节点完成,特征值的获取由Reduce步骤完成,步骤如下:步骤2.1:根据路段标号r对数据集τ进行分割,获得N个数据块,然后,每个数据块分割为M个子数据块,获得N×M个子数据块,并分发给子节点;步骤2.2:子节点把数据块分配给N×M个Map函数,每个Map任务处理一个子数据块;步骤2.3:在Map函数中,首先,对子数据块进行聚类,获得聚类中心ci(i=1,2,3,...,K),聚类中心数目K由压缩因子α确定,K=floor(α*N),floor表示向下取整;然后,离散化聚类中心,以路段标号r为键值构造数据对象进行分发,数据对象属性包含键值、聚类中心ci和中心点数目K、传感器数据集合、数据元素和位置信息,所述键值为路段标号r;步骤2.4:在Reduce函数中,合并多个子数据块的聚类中心,获得特征值xl(l=1,2,3,...,K′),K′为特征值个数,步骤为:2.4.1)计算两个聚类中心(ci、cj)之间的欧式距离lij,获得两个聚类中心之间的最小欧式距离lmin,lmin=min(|ci‑cj|),其中i,j∈K且i≠j,|*|表示欧式距离;2.4.2)特征值计算采用:xl=avg(c1,c2,...,ck),k为满足合并条件的聚类中心个数,当多个聚类中心ck满足合并条件lij<(1+α)*lmin时,特征值为多个聚类中心的平均值,当一个聚类中心ck与其他聚类中心的欧式距离都不满足合并条件时,特征值为它自身;2.4.3)若K′<K,聚类过程结束;反之,调整压缩因子α=α*1.5,扩大压缩因子继续聚类,重新进行步骤2.2到步骤2.4;步骤2.5:将特征值xl写入以路段标号为行标的数据集到分布式文件系统,完成数据清洗过程。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于银江股份有限公司,未经银江股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610517414.0/,转载请声明来源钻瓜专利网。
- 上一篇:数据操作方法和系统
- 下一篇:数据属性的选择方法及装置