[发明专利]一种面向海量历史浮动车数据的分布式地图匹配方法在审
申请号: | 201410281606.7 | 申请日: | 2014-06-20 |
公开(公告)号: | CN104182453A | 公开(公告)日: | 2014-12-03 |
发明(设计)人: | 薛益赵;李建元;钱涛;倪升华;李丹;陈涛;王浩 | 申请(专利权)人: | 银江股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 |
地址: | 310012 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种面向海量历史浮动车数据的分布式地图匹配方法,包括以下步骤:步骤(1)将海量浮动车数据上传至Hadoop分布式文件系统;步骤(2)分布式数据清洗;步骤(3)将道路节点信息通过分布式缓存方法存储到各个Slave子节点上时,在任何Job在节点上执行之前,先对道路节点信息建立网格索引;步骤(4)通过Hadoop的Map-Reduce框架从分布式文件系统HDFS中读取清洗后的浮动车数据,同样对其进行切片处理,以128M为单元切片成多个数据块,然后将数据块分发到各个节点的Map-Reduce上,同时读取分布式缓存中的道路节点信息进行地图匹配运算,实现分布式运算;步骤(5)Reduce函数将匹配后的信息存储到Hadoop分布式文件系统中。本发明计算速度较快、时间耗费量较小。 | ||
搜索关键词: | 一种 面向 海量 历史 浮动 数据 分布式 地图 匹配 方法 | ||
【主权项】:
一种面向海量历史浮动车数据的分布式地图匹配方法,其特征在于:所述匹配方法包括以下步骤: 步骤(1):将海量浮动车数据上传至Hadoop分布式文件系统HDFS; 步骤(2):分布式数据清洗,首先对原始数据进行切片,以128M为单元切片成多个数据块,然后将数据块分发到各个节点的Map‑Reduce上进行数据预处理,依据各个数据项的判别规则,实现分布式运算,当且仅当满足所有数据项判别规则时该数据行才会被保留,否则删除存在数据缺失或数据明显偏离正常值的数据行,最后将清洗后的数据重新存回Hadoop分布式文件系统HDFS上; 步骤(3):将道路节点信息通过分布式缓存方法存储到各个Slave子节点上时,在任何Job在节点上执行之前,先对道路节点信息建立网格索引; 步骤(4):通过Hadoop的Map‑Reduce框架从分布式文件系统HDFS中读取清洗后的浮动车数据,同样对其进行切片处理,以128M为单元切片成多个数据块,然后将数据块分发到各个节点的Map‑Reduce上,同时读取分布式缓存中的道路节点信息进行地图匹配运算,实现分布式运算; 将逐行读取文件块并将行号及该行内容映射为初始键值输入,采用Map函数对键值部分进行分离处理,形成中间键值对<key,value>; 地图匹配算法的Map函数的形参key1设置为经过清洗后数据文件的行号索引,value1设置为该行号索引所对应的数据行; 每条value1的值读入内存并以“,”将数据行分割成多个数据项,从各数据项中提取出经度数据项,纬度数据项,行驶方向数据项进行匹配计算; 在地图匹配计算中引入匹配度函数(λ):匹配度是描述浮动车GPS点与一条道路的匹配度,使用(0,1)区间的浮点数进行量化,匹配度越接近1,代表该浮 动车越有可能位于这条道路; 其中λ为道路的匹配度; 为到道路投影距离的归一化值;为车辆行驶方向与道路方向夹角的归一化值;μ1,μ2为为匹配权重,且满足 μ1+μ2=1 (1‑4) 其中ΔGPS‑‑GPS平均误差; 候选道路集合H: 候选道路集合H是在计算匹配度之前依据浮动车GPS点到各路段的投影距离d与距离阀值dα之差所得出,当满足条件dα‑d>0时,就把该路段加入到候选路段集合H中; 然后依次对候选路段集合H中的路段做匹配度运算得出各个路段的匹配度,最后按照从大到小的顺序做排列运算,将匹配度最大的路段作为value2的值输出到Reduce函数; 步骤(5):Reduce函数将匹配后的信息存储到Hadoop分布式文件系统中。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于银江股份有限公司;,未经银江股份有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410281606.7/,转载请声明来源钻瓜专利网。
- 上一篇:用于将内容呈现给用户的系统和方法
- 下一篇:数据编辑装置