[发明专利]一种基于分布式系统的海量交通数据快速处理方法有效
申请号: | 201510925950.X | 申请日: | 2015-12-11 |
公开(公告)号: | CN105528431B | 公开(公告)日: | 2019-05-14 |
发明(设计)人: | 张善海;熊贵喜;蔡朝辉;杜博文;凌萍;谢志普 | 申请(专利权)人: | 新智认知数据服务有限公司 |
主分类号: | G06F16/182 | 分类号: | G06F16/182;G06F16/172 |
代理公司: | 上海远同律师事务所 31307 | 代理人: | 张坚 |
地址: | 201201 上海市浦*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分布式 系统 海量 交通 数据 快速 处理 方法 | ||
1.一种基于分布式系统的海量交通数据快速处理方法,其特征在于,包括以下步骤:
步骤a:在时间和空间上将海量交通数据分块,分块后的所述交通数据具有时间属性标识和空间属性标识;
步骤b:在内存中以细粒度存储一定数量的常用的所述交通数据,在文件系统中以粗粒度存储除所述内存存储的交通数据之外的交通数据;
步骤c:当处理程序请求处理数据时,判断所请求的交通数据是否在内存中;
步骤d:如果所请求的交通数据存储在内存中,则直接处理相应数据;以及
步骤e:如果所请求的交通数据存储在所述文件系统中,则先根据文件信息从所述文件系统中将所述交通数据读入内存,再对所述交通数据进行处理,
步骤b中,在内存中以细粒度存储交通数据,是同时按照时间和小区号进行划分,将时间和小区号<时间,小区号>两者结合起来作为所述交通数据的键值;在文件系统中以粗粒度存储交通数据,是在各个时间段的基础上,将所有交通小区分为若干个集合,并在文件开始位置记录各个小区在文件中的位置信息。
2.根据权利要求1所述的方法,其特征在于,所述在时间上将交通数据分块是将每天的交通数据按顺序分为五个时间段:凌晨、早高峰、平峰即早晚高峰之间、晚高峰以及深夜,并用数字1~5作为其时间属性标识。
3.根据权利要求2所述的方法,其特征在于,所述在空间上将交通数据分块是根据所述交通数据产生地点的经纬度信息找到其对应的交通小区,并将小区编号作为其空间属性标识。
4.根据权利要求3所述的方法,其特征在于,所述交通小区是根据城市居民区以及交通道路将城市划分而成的小区,所述交通小区具有包括小区编号、交通小区质心、交通小区边界点集以及交通小区描述的域。
5.根据权利要求4所述的方法,其特征在于,找到交通数据对应的交通小区包括如下步骤:
步骤a1:获取所述交通数据产生地点P的经度和纬度信息;
步骤a2:计算点P和所有交通小区质心之间的距离,并按照距离从近到远排序;
步骤a3:按照顺序根据计算获得的所述距离判断所述点P是否在对应的交通小区内;
步骤a4:如果在对应的交通小区内,则返回对应的小区编号;否则继续找,如果最后也没有找到,则返回-1;以及
步骤a5:找到所述交通数据对应的交通小区后,在所述交通数据上增加一个字段,记录其对应的交通小区编号,作为空间属性标识。
6.根据权利要求5所述的方法,其特征在于,步骤c中,对于要处理的交通数据,根据其时间和空间属性查找其是否存在内存中。
7.根据权利要求6所述的方法,其特征在于,步骤e中根据文件信息从所述文件系统中读取所述交通数据进一步包括以下步骤:
步骤e1:根据时间和空间属性获得所述交通数据所在的文件的文件名以定位该文件;和
步骤e2:根据所述文件开头的数据位置索引信息,找到交通数据在文件中的具体位置,以快速读取。
8.根据权利要求1所述的方法,其特征在于,所述内存中只保留一部分空间用于缓存常用交通数据,当新的交通数据需要读入内存时,若内存中预留空间不足,则根据最近最少使用原则从内存中剔除一部分数据,并将所需数据读入内存中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新智认知数据服务有限公司,未经新智认知数据服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510925950.X/1.html,转载请声明来源钻瓜专利网。