[发明专利]基于spark集群并行化计算的交通拥堵点发现方法有效
申请号: | 201811632271.3 | 申请日: | 2018-12-29 |
公开(公告)号: | CN109739585B | 公开(公告)日: | 2022-02-18 |
发明(设计)人: | 刘阳;何倩;李双富;李祖文;江炳城;杨辉;黄焕;徐红 | 申请(专利权)人: | 广西交通科学研究院有限公司;桂林电子科技大学 |
主分类号: | G06F9/448 | 分类号: | G06F9/448;G06K9/62;G06Q50/26 |
代理公司: | 桂林市华杰专利商标事务所有限责任公司 45112 | 代理人: | 覃永峰 |
地址: | 530007 广西壮*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 spark 集群 并行 计算 交通 拥堵 发现 方法 | ||
1.一种基于spark集群并行化计算的交通拥堵点发现方法,其特征在于,包括如下步骤:
(一)对海量数据的预处理,包括补全轨迹点间的误差以及区域内一段时间内轨迹点冗余;
(二)采用网格-均值聚类算法聚类得到目标多个数据样本;
(三)采用邻域最大密度网格聚类算法,spark集群节点并行分别计算每个数据样本,寻找出每个邻域最大密度网格点并聚类,得到城市交通热门路网模型;所述邻域最大密度网格聚类算法:将重新网格化后的坐标集合分配到Map函数中,选取任意一个网格密度大于阈值的坐标点G(Xn,Yn)作为聚类中心,搜索周围网格并找除聚类中心外的最大密度网格为下一个聚类中心,计算该最大密度网格与G(Xn,Yn)的夹角,如果该夹角介于45°和145°之间,则把与该聚类中心横坐标相同的网格合并到该聚类中心,否则将纵坐标相同的网格合并到聚类中心网格,遍历所有网格,直到所有网格聚类完毕,其具体步骤如下:
(1)spark集群每个节点单独提取不同分片轨迹数据和网格坐标,并对网格坐标再一次网格化,把一个网格重新划分成n个小网格,n为自定义值;网格化算法如下:把一个网格重新划分成n个小网格,n为自定义值,设原始网格坐标为G(Xn,Yn),则划分后的网格坐标为G(Xn’,Yn’):
Xn’=(Xn–Lx)/n;Yn’=(Yn–Ly)/n;
其中Lx,Ly为第一次网格化设定的阈值,则重新划分后的坐标为G(Xn’,Yn’);
(2)遍历分片轨迹数据,并把单位化后的轨迹数据,存入对应坐标的网格中,在单位化后的轨迹数据坐标(Xn’,Yn’)中,必定有与之相对应的网格坐标G(Xn’,Yn’),则有(Xn’,Yn’)∈G(Xn’,Yn’);
(3)选取任意一定区域内一个网格密度大于阈值的坐标点G(Xn,Yn)作为聚类中心,搜索周围网格并找到除聚类中心外的最大密度网格为下一个聚类中心,计算该最大密度网格与G(Xn,Yn)的夹角,如果该夹角介于45°和145°之间,则把与该聚类中心横坐标相同的网格合并到该聚类中心,否则将纵坐标相同的网格合并到聚类中心网格,遍历所有网格,直到所有网格聚类完毕,保存到集群的新RDD中,计算方法如下:
选取任意一定区域内一个网格密度大于阈值的坐标点G(Xn,Yn)作为聚类中心,设网格密度为Den1,选取其周围网格坐标集合U{(Xn-1,Yn-1),(Xn,Yn-1),(Xn+1,Yn-1),(Xn-1,Yn),(Xn+1,Yn),(Xn-1,Yn+1),(Xn,Yn+1),(Xn+1,Yn+1)};选取集合U中最大密度网格坐标为(X,Y),其网格密度为Den2,计算他们之间的夹角:
如果:θ∈(45°~145°)则有{(Xn,Yn-1),(Xn,Yn+1)}∈G(Xn,Yn)
否则:{(Xn-1,Yn),(Xn+1,Yn)}∈G(Xn,Yn);
分配G(Xn,Yn)到新的Map函数,遍历所有的网格,得到邻域最大密度集合Den{Den1,Den2Den3…Denn};
(四)采用邻域密度差算法,通过spark集群并行化计算出相邻网格密度差,得到交通拥堵点,并将得到的结果保存在spark内存中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西交通科学研究院有限公司;桂林电子科技大学,未经广西交通科学研究院有限公司;桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811632271.3/1.html,转载请声明来源钻瓜专利网。