[发明专利]基于特征站点的公交IC卡数据站点匹配方法无效

申请号：	201110089682.4	申请日：	2011-04-11
公开（公告）号：	CN102156732A	公开（公告）日：	2011-08-17
发明（设计）人：	陈艳艳;陈绍辉;刘帅	申请（专利权）人：	北京工业大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京思海天达知识产权代理有限公司 11203	代理人：	楼艮基
地址：	100124 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于特征站点公交 ic 数据匹配方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种将公交IC卡交易数据与公交站点的匹配方法，属于公交信息数据处理领域。

背景技术

公交IC卡收费系统为公交出行分析提供了低成本的海量数据，但由于系统设计目的是为方便乘客付费与票款清算，未考虑交通领域的应用，故IC卡数据缺少了一些必要的出行信息，在数据处理分析中，首先需要通过技术手段获取缺失信息，才能开展进一步的数据挖掘工作。

由于单次刷卡的公交IC卡数据中缺少乘客上车站点信息，需要找出乘客刷卡记录与站点的对应关系。目前比较常见的匹配方法是利用聚类方法对乘客刷卡数据进行聚类，以站点间运行时间估计值作为相似性判断阈值，与聚类子集间的时间差值进行对比，将满足条件的聚类子集匹配到对应站点。

事实上，由于公交站点间车辆运行时间的不确定，单纯依靠站点间运行时间估计值作为站点匹配的判断依据是不够准确的，当道路交通条件发生变化情况下，匹配结果误差较大。根据公交客流统计结果可知，在某个固定时段内(如早高峰)公交站点客流量具有较强的规律性，这种规律为通过寻找具有客流特征的站点来辅助站点匹配的新技术提供了可能。

发明内容

本发明目的在于，通过提供一种基于站点客流特征的公交IC卡站点匹配方法，提高单次刷卡线路的公交IC卡数据站点匹配精度，准确反映公交乘客出行时站点客流量信息。为基于公交IC卡的数据处理分析提供高质量的数据，获取更真实的公交IC卡数据挖掘结果，为公交规划者与管理者提供决策依据。

本发明是采用以下技术手段实现的：

一种基于特征站点的公交IC卡数据站点匹配方法，包括：基于k-means聚类方法的公交IC卡数据聚类分析、基于特征站点的站点匹配；

所述的基于k-means聚类方法的公交IC卡数据聚类分析，包括如下步骤：

步骤1.1：确定单车单日班次数；

即通过计算单车公交IC数据中每个交易记录的交易时间间隔，获取单车单日行驶班次数。

对于单车单日IC卡数据而言，连续两个班次之间有较大的时间间隔，通常在5～10分钟以上(环行线路即一端无重点场站线路除外)，故单车前一班次的最末交易时间与后一班次的最初交易时间间隔显著大于同一班次内的相邻交易时间间隔。计算单车单日所有相邻交易记录的交易时间差值，t_i代表单车IC卡数据中每条交易记录的交易时间，d(t_i，t_i+1)代表相邻交易时间间隔，利用曼哈顿距离计算：

d(t_i，t_i+1)＝|t_i-t_i+1|

以w代表班次数，α为班次间隔判断阈值，根据城市具体交通情况取值，一般高峰可为5分钟，平峰为10分钟。统计单车单日班次数，方法如下：

w＝w+1，if d(t_i，t_i+1)＞α

步骤1.2：确定初始聚类个数；

单车班次确认后，对单个班次内的交易记录进行聚类分析。由于在同一站点的交易记录交易时间间隔较小，可通过相邻交易时间间隔判断初始聚类个数。以k代表聚类初始值，β为初始聚类判断阈值，一般大于30秒，则k的统计方法如下：

k＝k+1， if d(t_i，t_i+1)＞β

步骤1.3：计算初始聚类子集中心及误差平方和准则函数；

设交易记录数据集为T，m_i为聚类中心，即每个类中交易时间的平均值，p是数据集中的点，即交易记录中的交易时间。计算初始聚类中心如下：

mi=1nΣp∈Ti,i=1kp]]>