[发明专利]一种基于Spark平台的短时交通流量预测方法有效
申请号: | 201610515512.0 | 申请日: | 2016-06-30 |
公开(公告)号: | CN106128100B | 公开(公告)日: | 2019-01-15 |
发明(设计)人: | 胡斌杰;王腾辉 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G08G1/01 | 分类号: | G08G1/01 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 何淑珍 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明在一种基于Spark平台的短时交通流量预测方法,将并行化的KNN算法应用于短时交通流预测领域。相比基于单机计算的传统KNN算法而言,该方法解决了在单台物理机上进行数据计算时,系统存储容量小、计算速度慢的问题,也解决了KNN算法近邻查找过程中近邻匹配效率过低的问题。该方法在保证预测精度的前提下,提高了算法的计算效率,有效的改善了KNN预测算法的实用性,并且系统具有良好的扩展性和加速比。本发明对于其他需要对大规模数据进行处理的应用也具有参考意。 | ||
搜索关键词: | 一种 基于 spark 平台 交通 流量 预测 方法 | ||
【主权项】:
1.一种基于Spark平台的短时交通流量预测方法,其特征在于包括如下步骤:(1)数据预处理:处理源交通流量数据,剔除与交通流量预测无关的数据字段;所述的数据预处理是对由道路传感器收集到的源交通流数据进行处理,得到与预测路段相关的字段数据以及与待测路段在时间和空间相关联路段的交通流数据,包括如下步骤:(1.1)将传感器收集到的交通流量数据存储到Hadoop的HDFS文件系统中;(1.2)利用Spark中的textFile()函数将存储到HDFS文件系统中的交通流量数据读入到Spark中,并生成一个Spark中特有的数据类型MappedRDD;(1.3)利用Spark中的map()函数,读取MappedRDD中每一行交通流量数据,并利用Spark中的split()函数对每一行数据按照分隔符进行分割,最后将需要的交通流字段数据进行提取;(2)基于时空关系的特征向量:利用与待测路段在时间和空间相关联路段的交通流量共同生成KNN算法的交通流特征向量;所述的基于时空关系的特征向量是对交通流数据进行时空特性分析,确定最佳的时间和空间维度,以此形成最佳的交通流输入向量;预测时间间隔为5分钟,该特征向量的时间维度为2,空间维度为4,即取待测路段当前时刻和前一时刻的交通数据,即取待测路段以及待测路段的两个上游和一个下游路段的交通流量数据组成基于时空关系的特征向量;(3) 实时流处理:利用Spark 流计算解决交通流量预测的实时性问题;(4)并行化KNN算法实现:对传统KNN算法进行并行化实现,使得KNN算法能够在Spark分布式集群上运行;所述的并行化KNN算法实现是对传统的基于单机运行的KNN算法重新进行实现,使KNN算法能够在由多台物理机组成的Spark分布式集群上并行运行,主要包括如下步骤:(4.1)利用mapPartitions()函数将已经处理好的交通流量数据分成若干分区,其中每个分区的数据在Spark集群中会在一个物理机上进行计算;(4.2)定义一个函数,这个函数的功能是获得待测路段及与待测路段在时间和空间相关联路段的交通流量所组成的特征向量;(4.3)将定义的这个函数作为mapPartitions()函数的输入参数;(5)数据分析:利用并行化KNN算法,对基于时空关系生成的交通流特征向量进行处理,得到待测路段下一时刻交通流量的预测结果;所述的数据分析是指在Spark集群上运行并行化实现的KNN算法,得到待测路段下一时刻的预测流量,主要包括如下步骤:(5.1)从历史数据库中根据欧式距离匹配到与当前待测路段交通流量最接近的K个交通流量向量;(5.2)取当前该K个交通流量向量的下一时刻交通流量的加权平均值作为预测路段下一时刻的交通流量。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610515512.0/,转载请声明来源钻瓜专利网。