[发明专利]一种出租车数据集的轨迹预处理方法在审
申请号: | 201710101802.5 | 申请日: | 2017-02-24 |
公开(公告)号: | CN106970945A | 公开(公告)日: | 2017-07-21 |
发明(设计)人: | 叶枫;吴胜艳;邹由超 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京苏高专利商标事务所(普通合伙)32204 | 代理人: | 梁耀文 |
地址: | 211100 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 出租车 数据 轨迹 预处理 方法 | ||
1.一种出租车数据集的轨迹预处理方法,其特征在于,包括如下步骤:
步骤一:对轨迹数据进行获取,采样轨迹点包括经度、纬度和时间戳信息;
步骤二:对轨迹数据进行解析并抽象存储在实体对象中,然后对轨迹进行编号,加入轨迹点ID;
步骤三:对解析后的轨迹数据进行预处理,先进行补缺阶段分析,查找轨迹缺失值,利用线性插值法或平均值法补缺缺失值;
步骤四:对完成缺失值处理后的数据再进行异常值检测并处理,然后通过数据冗余检测及数据压缩;
步骤五:对检测后的数据进行切割,搜索轨迹中处于拐角的轨迹点,生成拐点集,对拐点集进行合并和调整,按拐点集进行轨迹切割;
步骤六:轨迹信息更新并进行轨迹输出。
2.根据权利要求1所述的一种出租车数据集的轨迹预处理方法,其特征在于,所述步骤三中补缺阶段分析中,轨迹基本缺失情况和缺失值处理方法对应如下,其中轨迹基本缺失情况有如下三种:
1)经、纬度同时丢失;
2)经度丢失或纬度丢失;
3)时间戳丢失;
其他复杂情况可由这三种情况进行复合,复合缺失情况可拆开由基本缺失情况进行处理;
对应的当经、纬度同时丢失时,由于其缺失数据过多,该数据在轨迹分析时不会有意义,则从轨迹中去除该点;
当经度和纬度丢失其中之一时,利用线性插值的方法来补全缺失值,线性插值是一种插值方法,指使用连接两个已知量的直线来确定在两个已知量之间的一个未知量的值的方法;
当时间丢失时,利用前后轨迹点的时间戳来计算缺失时间的平均值,补全缺失的时间戳。
3.根据权利要求1所述的一种出租车数据集的轨迹预处理方法,其特征在于,所述步骤四中异常值检测并处理的具体步骤如下:利用K-means算法实现异常点检测,利用点与点之间的欧氏距离作为轨迹点间的相似度测量标准;
K-means属于划分式聚类算法,其需要预先指定聚类数目或聚类中心,通过反复迭代运算,逐步降低目标函数的误差值,当目标函数值收敛时,得到最终聚类结果;检测之后,对轨迹点时间戳进行精确分析,若是异常值,则去掉。
4.根据权利要求1所述的一种出租车数据集的轨迹预处理方法,其特征在于,所述步骤四中数据冗余检测及数据压缩的具体步骤如下:对相似轨迹点聚集到一个类群里,该群里的点有些距离很接近且相似,每次取3个点作为研究对象,若这3个点基本在一条直线上,便将其中的非拐点去掉,最多去掉其中的2个点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710101802.5/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置