[发明专利]一种出租车数据集的轨迹预处理方法在审
申请号: | 201710101802.5 | 申请日: | 2017-02-24 |
公开(公告)号: | CN106970945A | 公开(公告)日: | 2017-07-21 |
发明(设计)人: | 叶枫;吴胜艳;邹由超 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京苏高专利商标事务所(普通合伙)32204 | 代理人: | 梁耀文 |
地址: | 211100 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 出租车 数据 轨迹 预处理 方法 | ||
技术领域
本发明属于数据预处理技术领域,特别涉及一种基于UCI机器学习库中出租车数据集的轨迹预处理的方法。
背景技术
随着传感器网络、卫星和无线通信等位置采集技术的快速发展,各类移动对象产生了大规模的轨迹数据。轨迹数据通常包括轨迹序列和轨迹点,其中:轨迹点是记录轨迹的原子数据,它由经度、纬度和时间戳组成;轨迹序列由若干包含轨迹点组成。现实生活中的数据是纷繁杂乱的,收集来的数据往往存在缺失和录入错误。在轨迹数据中有缺失值也是正常现象,若不对其进行处理,将会对计算结果有极大的干扰,故在数据读取后对轨迹数据进行缺失值预处理。且数据收集和测量过程中的有很多误差,轨迹在收集或者是录入的过程中,会有一些错误的轨迹点,其在数据预处理时应该进行数据清理。异常点的属性值明显偏离期望的或常见的属性值,会造成相似分析的误差,故对异常点的检测分析时不可缺失的。数据粒度在数据挖掘和统计分析中是一个关键参数,合适的数据粒度能在运动对象相似分析及可视化中,能提高分析计算性能。在轨迹数据中有的区域内点的分布很密集且特征相似,若不做处理首先会导致数据量大,计算速度下降,其次也会影响计算的精度。
为了便于搜索轨迹挖掘,提高分析的精确度,防止算法在轨迹点匹配时过度扭曲,在数据预处理时,需要对轨迹进行轨迹分割。
从上述一些需求中不难看出,研究轨迹挖掘的过程中,实现轨迹数据预处理是非常有意义的。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种能够处理轨迹数据中的缺失值,对于异常点进行检测和处理,并能对复杂且有重叠的轨迹进行切割的出租车数据集的轨迹预处理方法。
技术方案:为解决上述技术问题,本发明提供一种出租车数据集的轨迹预处理方法,包括如下步骤:
步骤一:对于轨迹数据进行获取,采样轨迹点包括经度、纬度和时间戳信息;
步骤二:对轨迹数据进行解析并抽象存储在实体对象中,然后对轨迹进行编号,加入轨迹点ID;
步骤三:对解析后的轨迹数据进行预处理,先进行补缺阶段分析,查找轨迹缺失值,利用线性插值法或平均值法补缺缺失值;
步骤四:对进行完成缺失值处理后的数据再进行异常值检测,先对异常值检测并处理,然后通过数据冗余检测及数据压缩;
步骤五:对检测后的数据进行切割,搜索轨迹中处于拐角的轨迹点,生成拐点集,对拐点集进行合并和调整,按拐点集进行轨迹切割;
步骤六:轨迹信息更新并进行轨迹输出。
进一步的,所述步骤三中补缺阶段分析中,轨迹基本缺失情况和缺失值处理方法对应如下,其中轨迹基本缺失情况有如下三种:
1)经、纬度同时丢失;
2)经度丢失或纬度丢失;
3)时间戳丢失;
其他复杂情况可由这三种情况进行复合,复合缺失情况可拆开由基本缺失情况进行处理;
对应的当经、纬度同时丢失时,由于其缺失数据过多,该数据在轨迹分析时不会有意义,则从轨迹中去除该点;
当经度和纬度丢失其中之一时,利用线性插值的方法来补全缺失值,线性插值是一种插值方法,指使用连接两个已知量的直线来确定在两个已知量之间的一个未知量的值的方法;
当时间丢失时,利用前后轨迹点的时间戳来计算缺失时间的平均值,补全缺失的时间戳。
进一步的,所述步骤四中异常值检测并处理的具体步骤如下:利用K-means算法实现异常点检测,利用点与点之间的欧氏距离作为轨迹点间的相似度测量标准;K-means属于划分式聚类算法,其需要预先指定聚类数目或聚类中心,通过反复迭代运算,逐步降低目标函数的误差值,当目标函数值收敛时,得到最终聚类结果;检测之后,对轨迹点时间戳进行精确分析,若是异常值,则去掉。
进一步的,所述步骤四中数据冗余检测及数据压缩的具体步骤如下:对相似轨迹点聚集到一个类群里,该群里的点有些距离很接近且相似,每次取3个点作为研究对象,若这3个点基本在一条直线上,便将其中的非拐点去掉,最多去掉其中的2个点。
与现有技术相比,本发明的优点在于:
本发明方法能100%处理缺失值;能检测和处理85%左右的异常点;能去掉的冗余点所占轨迹点的区间为(0,25%);对于复杂且经纬度有重叠的轨迹能进行有效切割。
本发明中对于缺失值的处理,是查询出数据中的缺失值,分析缺失情况属于哪一类型,再根据具体类型利用插值法或均值法进行补缺,其中线性插值是最简洁而效率最高的缺失值处理方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710101802.5/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置