[发明专利]地铁用户识别方法与系统有效
申请号: | 202011627949.6 | 申请日: | 2020-12-31 |
公开(公告)号: | CN112866934B | 公开(公告)日: | 2022-02-15 |
发明(设计)人: | 李永军;赵海燕;马忠志;王幸;戴培;赵志翔;卢俊;邵翰羽 | 申请(专利权)人: | 江苏欣网视讯软件技术有限公司 |
主分类号: | H04W4/20 | 分类号: | H04W4/20;G08G1/01;G06K9/62 |
代理公司: | 南京行高知识产权代理有限公司 32404 | 代理人: | 王培松;王菊花 |
地址: | 210000 江苏省南京市建*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 地铁 用户 识别 方法 系统 | ||
1.一种基于手机信令的地铁用户识别方法,其特征在于,包括以下步骤:
步骤1、以地铁站点经纬度为中心、半径为第一阈值K1范围内的圆形区域设定作为地铁站点的工参范围,其中对于地铁线路首末站,其工参范围的圆形区域的半径为第二阈值K2,K2=2*K1;
步骤2、获取设定时间周期范围内的城市GIS地域界限范围内的用户的手机信令数据,构造每个用户每天的信令轨迹,其中所述手机信令数据为移动通信终端进行基站扇区切换时上报的包含终端号码、时间以及基站经纬度的数据;对用户按照预设的规则进行排序;
步骤3、从第一个用户开始,将用户一天中所有的上报的手机信令数据,将在地铁站点的工参范围内的上报数据打上标签,记为对应地铁站点的id;其中每个上报数据对应一个基站的轨迹点;
步骤4、遍历步骤3处理后的上报数据,把所有连续在一个地铁站点内的点聚合成一个站点;其中连续没有站标识的上报数据参与聚合过程,判定为中间路段;
步骤5、将连续Q个有站点的轨迹点进行轨迹切割,得到单个用户单日时间跨度下所有的轨迹组;
步骤6、按照以上步骤3-5的方式遍历每个用户上报的手机信令数据,得到所有用户的轨迹组;
步骤7、根据地铁线网数据,按照线路进行分组,并且对每个线路上按照每三个连续的站点进行切割,得到站点组;然后将线路上每个站点的所在地铁线路id、线路运行方向、站点名称一起,匹配到对应站点组上去,得到站点地图Map;
步骤8、将步骤6获得的轨迹组与步骤7的站点地图Map进行匹配,对匹配后的结果进行时间和空间聚类,获得地铁用户训练数据;
步骤9、基于地铁用户训练数据,将数据按照地铁线路id、地铁站点id、地铁方向标识对所有数据进行分组,并按照每个站点工参按照出现的概率进行过滤,获得每个站点的一级特征库;
步骤10、根据地铁线路每日实际发生的地铁轨迹计算二级特征库;
其中,所述步骤8中的具体处理包括:
ST1:将步骤6获得的轨迹组与步骤7的站点地图Map进行匹配,得到经过中间站点的用户轨迹,记为Map-traj;
ST2:将所有用户的map_traj拆分,对于一条线路两端的站点的轨迹不作优化,对于一条线路非两端的站点的轨迹,则切割掉第一个站点和第三个站点的上报位置数据,其中站点地图按照Map的key:line_id+line_direction+station对Map-traj进行分组,得到Map[key,List(trajectory)],其中的每个trajectory代表在一条线路上经过连续三个站点的轨迹,每个List代表了一条线路一个方向一个站点一天所有的用户轨迹组;line_id表示地铁线路id,line_direction表示线路运行方向;station表示站点名称;
ST3:对List(trajectory)轨迹组中的轨迹,进行时间和空间的聚类,通过时间聚类输出簇划分结果,每个簇代表一个时间段的一个站点的一个方向所有的用户的轨迹组,然后对每个簇再进行空间聚类,将地铁用户和各个非地铁用户进行区分;
ST4:对ST3进行空间聚类后得到的结果按照station_order_id结合line_direction进行排序,一个站点的所有簇记为一个seq;station_order_id表示地铁线路站点顺序ID;
从第一个Seq开始,对每一个Seq依次作为单独的一列,进行左关联处理,关联后获得一条地铁线路、一个固定方向维度下,当日内所有运营班次;
再按照预设的过滤条件,过滤出一个地铁一个方向当日运营的时间图,得到地铁用户训练数据,作为后续确定一级特征库和二级特征库的依据;
其中,所述时间聚类基于DBSCAN聚类实现,具体包括:
数据预处理:对每个trajectory,将中间打地铁标签的节点的所有聚合基站的上报时间求和,再除以聚合基站的个数,得到平均时间作为该trajectory的时间;
输入:样本集D=List(trajectory),邻域参数(e,MinPts),e为邻域距离阈值;
(1)初始化核心对象集合初始化聚类簇数k=0,初始化未访问样本集合Γ=D,簇划分
(2)对于j=1,2,...m,按下面的步骤找出所有的核心对象:
a)通过时间距离度量方式,获得样本xj的e-邻域子样本集Ne(xj);
b)如果子样本集样本个数满足|Ne(xj)|≥MinPts,将样本xj加入核心对象样本集合:Ω=Ω∪{xj};
(3)如果核心对象集合则结束,否则转入下一步骤;
(4)在核心对象集合Ω中,随机选择一个核心对象o,初始化当前簇核心对象队列Ωcur={o},初始化类别序号k=k+1,初始化当前簇样本集合Ck={o},更新未访问样本集合Γ=Γ-{o};
(5)如果当前簇核心对象队列则当前聚类簇Ck生成完毕,更新簇划分C={C1,C2,...,Ck},更新核心对象集合Ω=Ω-Ck,转入步骤(3);否则更新核心对象集合Ω=Ω-Ck;
(6)在当前簇核心对象队列Ωcur中取出一个核心对象o′,通过时间距离度量方式并基于邻域距离阈值e找出所有的e-邻域子样本集Ne(o′),令Δ=Ne(o′)∩Γ,更新当前簇样本集合Ck=Ck∪Δ,更新未访问样本集合Γ=Γ-Δ,更新Ωcur=Ωcur∪(Δ∩Ω)-o′,转入步骤(5);
输出结果为:簇划分C={C1,C2,...,Ck},每个簇代表一个时间段一个站点一个方向所有的用户轨迹组;
其中,所述空间聚类基于LCSS算法实现,具体包括:
(1)假设两条长度分别为m和n的轨迹组A(bts,bts1,bts2,……,btsm)和B(bts1,bts2,……,btsn),则最长公共子序列的长度为:
其中,γ为成员相似阀值,即空间阈值和时间阈值,t=1,2,3……m,i=1,2,3……n,at表示轨迹组A中的第t个上报基站,bi表示轨迹组B中的第i个上报基站;
基于上述公式,计算公共子序列相似度DLCSS:
(2)从当前簇中随机取出一个还未进行分簇的轨迹组K,遍历当前簇中所有还未分簇的轨迹组,与轨迹组K进行公共子序列相似度的计算,若在预设的区间范围之间,则与轨迹组K归为一类,作为当前簇的一个子簇;
(3)重复上一步的步骤,直到簇中所有的轨迹组都划分到子簇中;
(4)为每个簇按照簇长度进行编号,取出每个簇中的所有用户作为一个Set集合,该数据作为后面使用的一个关联条件;
(5)对于一个轨迹组,以轨迹组中第一个上报时间作为轨迹组的开始运行时间,以轨迹组中最后一个上报时间作为轨迹组的结束运行时间,据此计算簇中每个轨迹开始时间和结束时间的平均时间以及标准差时间:
*簇的开始时间=轨迹开始时间的平均时间-轨迹开始时间的标准差时间;
*簇的结束时间=轨迹结束时间的平均时间+轨迹结束时间的标准差时间;
其中,所述步骤9获得每个站点的一级特征库的具体过程包括:
(1)将地铁用户训练数据按照地铁线路id、地铁站点id、地铁方向标识对所有的训练数据进行分组,得到(line_id,station_id,line_direction)-List(trajectory)键值对数据;
(2)对于每个键值对数据中的value,即List(trajectory)数据,首先计算该value的长度valueLength,然后将该value中的所有轨迹按照工参进行累加合并,得到value中每个工参出现的次数btsNumber;
(3)计算每个工参在value中出现的概率,prob=btsNumber/valueLength;
(4)对每个工参按照出现的概率进行过滤,当prob=50%时,保留该工参,当prob50%时,删除该工参,其中保留的工参为一级特征工参;
(5)按照以上步骤(1)-(5),对每个站点进行处理,得到的结果为每个站点的一级特征库,即地铁站点工参,表示一条线路上的一个站点、在一个方向的工参;
其中,第一次计算一级特征库时,将步骤(4)得到的一级特征工参全部保留,判定该工参结果就是该站点的特征库;然后在后续计算特征库时,首先对历史工参结果进行检查,如果新的工参与历史的一级特征工参相同,那么更新历史的一级特征工参的更新时间,如果新的工参在历史一级特征工参中没有出现过,那么添加新的工参到一级特征库中,并且记录更新时间;
其中,所述的二级特征库结合每日实际发生的地铁轨迹进行计算,具体包括:
(1)将地铁用户训练数据按照地铁线路id、地铁站点id、地铁方向标识对所有的训练数据进行分组,得到(line_id,station_id,line_direction)-List(trajectory)键值对数据;
(2)对于每个键值对数据中的value,即List(trajectory),按照一级特征库进行过滤,保留与一级特征库工参相同的轨迹位置上报点记录;
(3)对于value中的每条轨迹,获取第一次出现一级特征工参的轨迹上报点,记录时间为开始时间,将所有value轨迹的开始时间合并成一个列表,作为开始时间列表,并且,获取最后一次出现一级特征工参的轨迹上报点,记录时间为结束时间,将所有value轨迹的结束时间合并成一个列表,作为结束时间列表;
(4)对开始时间列表和结束时间列表,将时间全部转化为时间戳,进行计算平均时间和标准差时间;
对于开始时间列表,按照平均时间减去标准差时间得到的时间数值为某运行班次开始时间特征;对于结束时间列表,按照平均时间加标准差时间,得到的时间数值为某运行班次结束时间特征;
(5)按照上面的步骤(2)-(4),对每个value计算每个班次的开始时间特征和结束时间特征,得到的数据为二级特征库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏欣网视讯软件技术有限公司,未经江苏欣网视讯软件技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011627949.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种行星架总成焊接工装及焊接方法
- 下一篇:一种胶圈自动修边装置