[发明专利]一种面向海量历史浮动车数据的分布式地图匹配方法在审
申请号: | 201410281606.7 | 申请日: | 2014-06-20 |
公开(公告)号: | CN104182453A | 公开(公告)日: | 2014-12-03 |
发明(设计)人: | 薛益赵;李建元;钱涛;倪升华;李丹;陈涛;王浩 | 申请(专利权)人: | 银江股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 |
地址: | 310012 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 海量 历史 浮动 数据 分布式 地图 匹配 方法 | ||
技术领域
本发明属于海量数据处理计算领域和智能交通领域,具体涉及一种分布式地图匹配方法。
背景技术
浮动车数据是最重要的交通数据之一,其输出结果不仅能为相关部门提供道路实时交通状况信息,而且可为道路建设规划、拥堵缓解等各项工作提供定量数据分析基础。地图匹配技术是浮动车数据处理中最关键的一项内容之一,只有判断出车辆在哪条道路上行驶,才能将GPS数据转化为有效的道路交通状态信息。
浮动车数据库中往往存储着海量的历史数据。对这些海量历史浮动车数据的地图匹配是时空关联性挖掘、缺失值插补、浮动车轨迹研究、交通限制条件挖掘等各种数据处理与分析任务的先决条件。在传统的串行匹配技术下,普通计算海量浮动车数据进行地图匹配会耗费大量的计算时间。以10000辆出租车每20秒返回一条浮动车数据为例,1年的浮动车纪录约为114亿条,以1秒钟处理1000条数据为基准,总共的计算时间约为180天左右。计算时间之长令人难以忍受。因此设计分布式计算方法改变传统计算模式,达到分而治之的效果显得很有必要。
发明内容
为了克服已有现有技术中海量数据进行地图匹配时计算速度慢、时间耗费量大的不足,本发明提供了一种基于Hadoop的分布式地图匹配方法,实现原始数据快速清洗、计算速度较快、时间耗费量较小的面向海量历史浮动车数据的分布式地图匹配方法。
本发明解决其技术问题所采用的技术方案是:
一种面向海量历史浮动车数据的分布式地图匹配方法,所述匹配方法包括以下步骤:
步骤(1):将海量浮动车数据上传至Hadoop分布式文件系统HDFS;
步骤(2):分布式数据清洗,首先对原始数据进行切片,以128M为单元切片成多个数据块,然后将数据块分发到各个节点的Map-Reduce上进行数据预处理,依据各个数据项的判别规则,实现分布式运算,当且仅当满足所有数据项判别规则时该数据行才会被保留,否则删除存在数据缺失或数据明显偏离正常值的数据行,最后将清洗后的数据重新存回Hadoop分布式文件系统HDFS上;
步骤(3):将道路节点信息通过分布式缓存方法存储到各个Slave子节点上时,在任何Job在节点上执行之前,先对道路节点信息建立网格索引;
步骤(4):通过Hadoop的Map-Reduce框架从分布式文件系统HDFS中读取清洗后的浮动车数据,同样对其进行切片处理,以128M为单元切片成多个数据块,然后将数据块分发到各个节点的Map-Reduce上,同时读取分布式缓存中的道路节点信息进行地图匹配运算,实现分布式运算;
将逐行读取文件块并将行号及该行内容映射为初始键值输入,采用Map函数对键值部分进行分离处理,形成中间键值对<key,value>;
地图匹配算法的Map函数的形参key1设置为经过清洗后数据文件的行号索引,value1设置为该行号索引所对应的数据行;
每条value1的值读入内存并以“,”将数据行分割成多个数据项,从各数据项中提取出经度数据项,纬度数据项,行驶方向数据项进行匹配计算;
在地图匹配计算中引入匹配度函数(λ):匹配度是描述浮动车GPS点与一条道路的匹配度,使用(0,1)区间的浮点数进行量化,匹配度越接近1,代表该浮动车越有可能位于这条道路;
其中λ为道路的匹配度;
为到道路投影距离的归一化值;
为车辆行驶方向与道路方向夹角的归一化值;
μ1,μ2为匹配权重,且满足
μ1+μ2=1 (1-4)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于银江股份有限公司;,未经银江股份有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410281606.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于将内容呈现给用户的系统和方法
- 下一篇:数据编辑装置