[发明专利]一种多线程的出租车大数据存取及处理的方法有效
申请号: | 201810480023.5 | 申请日: | 2018-05-18 |
公开(公告)号: | CN108647360B | 公开(公告)日: | 2020-04-28 |
发明(设计)人: | 孙玲;张琨;施佺;陆俊天;吕心钰 | 申请(专利权)人: | 南通大学 |
主分类号: | G06F16/182 | 分类号: | G06F16/182;G06F16/2458;G06Q10/06;G06Q50/30 |
代理公司: | 南京汇盛专利商标事务所(普通合伙) 32238 | 代理人: | 吴静安;吴扬帆 |
地址: | 226000*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 多线程 出租车 数据 存取 处理 方法 | ||
1.一种多线程的出租车大数据存取及处理的方法,其特征在于包括如下步骤:步骤1)将经纬度进行坐标转换,将WGS-84国际经纬度坐标标准系经过GCJ-02和BD-09两次转换,得到可在百度地图上准确显示的坐标,通过Hadoop并行计算框架下的Spark将每一条经纬度数据通过弹性分布式数据集的Map操作执行坐标转换操作;
步骤2)对数据进行清洗、指标计算、区域划分和数据转换的操作,每一步操作内部均采用Spark对每一条数据进行多线程的并行计算,
步骤3)将数据存入分布式文件系统HDFS;
所述Spark包括SparkContext、Cluter Manager以及Executor,Spark的工作过程包括如下步骤:
步骤a)应用程序在使用spark-submit提交后,根据提交时的参数设置在相应位置初始化SparkContext并创建DAG Scheduler和Task Scheduler,Driver根据应用程序执行代码,将整个程序根据action算子划分成多个job,每个job内部构建DAG图,DAG Scheduler将DAG图划分为多个stage,同时每个stage内部划分为多个task作为一个taskSet,DAGScheduler将taskSet传给Task Scheduler,Task Scheduler负责集群上task的调度;
步骤b)Driver根据SparkContext中的资源需求向Cluter Manager申请资源,所述资源包括Executor数及内存资源;
步骤c)资源管理器收到请求后在满足条件的work node节点上创建Executor进程;
步骤d)Executor进程创建完成后向Driver反向注册,以便接受Driver分配的task;
步骤e)当程序执行完后,Driver向ResourceManager注销所申请的资源;
步骤2)中的数据清洗包括如下步骤:
第一步是将超过实际坐标范围的数据清除;
第二步是检验特征异常值,如果数据满足正态分布,即采用3σ原则,σ表示标准差,不在均值的3个标准差之内的数据均判断是异常值;如果数据不满足正态分布,即采用箱线图法则,找出第一四分位数,第二四分位数,第三四分位数,计算四分位距离,只要数据在设定的范围内则保留,超出范围则判断为异常值进行剔除;
第三步是对冗余数据进行剔除,
所述步骤2)中的多线程的并行计算为:首先初始化元类,构造函数方法;接着,定义数据清洗、区域划分、指标计算、数据转换各种操作的子类,继承元类的方法,并为子类添加python的高级特性装饰器,调用元类接口即可实现所有子类的方法;最后并行执行每一个子类runner。
2.根据权利要求1所述的多线程的出租车大数据存取及处理的方法,其特征在于数据清洗的第二步中设定第一四分位数为Q1,第二四分位数为中位数,第三四分位数为Q3,四分位距离距离为:IQR=Q3–Q1,设定的范围为(Q1-1.5*IQR,Q3+1.5*IQR)。
3.根据权利要求1所述的多线程的出租车大数据存取及处理的方法,其特征在于步骤2)中的区域划分将坐标显示在地图上,对地图进行规则切分,通过与运力指标数据的结合调整经度差和纬度差,最终将区域范围的经度差设为0.03°、纬度差设为0.02°。
4.根据权利要求1所述的多线程的出租车大数据存取及处理的方法,其特征在于步骤2)中的数据转换为:将数据从时间横向、纵向、特征相关性以及空间分布进行数据格式的转换。
5.根据权利要求1所述的多线程的出租车大数据存取及处理的方法,其特征在于步骤2)中指标计算为:计算包括流入、流出、留存以及空载的运力指标;计算包括空驶率、载客量、上车量以及下车量的运营指标。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南通大学,未经南通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810480023.5/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置