[发明专利]一种基于交通大数据的个体关联强度自动检测方法有效
申请号: | 201811085836.0 | 申请日: | 2018-09-18 |
公开(公告)号: | CN109359670B | 公开(公告)日: | 2022-06-07 |
发明(设计)人: | 尹宝才;赵霞;张勇;刘浩;林炯斌 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06Q10/04;G06Q50/00;G06Q50/26 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 张慧 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 交通 数据 个体 关联 强度 自动检测 方法 | ||
1.一种基于交通大数据的个体关联强度自动检测方法,其特征在于,包括以下步骤:
步骤1:针对第i位交通个体,特征化其移动模式并聚类,从中提取具有移动模式相似性的两两交通个体对τ1=(i,j),并形成交通个体社区集合D;
步骤2:度量集合D中任一个体对τ1的交通行为相似性;
步骤3:度量集合D中任一个体对τ1的交通行为交互性;
步骤4:构建联合概率加权模型Wrs(τ1)来加权度量交通个体对τ1的关联强度,以自动检测D中真实的潜在同行个体;
步骤1具体为:
步骤1.1:移动模式特征化
针对第i位交通个体,从空间、时间和属性维度为其特征化d维出行特征向量集来描述该个体的移动模式,其中,d=7,且这7维出行特征指标分别为:隐患站点个数abStas、站点片区熵值staZnEn、站点时间熵值staTmEn、高峰时段访问频率peakTmPct、频繁出行频率freTraPct、最频繁出行路径比重maxODPct、短途出行比重shortTraPct;
步骤1.2:移动模式聚类
选用基于划分思想的c-means++方法对步骤1.1中输出的所有交通个体的移动模式特征向量集进行聚类,将具有相近移动模式的个体化为一类,最终得到c种具有不同移动模式的个体类别;聚类算法中需要指定两两交通个体移动模式相似性算子mobSim的度量方法,它量化的是个体间以出行特征向量为表征的移动模式相似性,对交通个体i和j构成的个体对τ1=(i,j),二者的移动模式相似性算子mobSim(τ1)为其移动模式相异性算子mobDis(τ1)的指数反函数,计算方式见公式(1),式中,分别为和的第d维特征;δ为幂平衡算子,用于确保mobSim(τ1)介于[0,1]范围内,
步骤1.3:交通个体社区提取
根据“6度分割”理论,遍历步骤1.2中每一类,为类内每位交通个体提取各自社区,并规定社区大小标准值为ns;遍历社区内所有邻居,使其与目标个体分别形成两两交通个体对,并合并为个体对集,从而实现对具有移动模式相似性的交通个体对的提取,以便用于后续的关联强度分析;
步骤2具体为:
首先,计算stSim相似性算子,对于交通个体对τ1=(i,j),stSim(τ1)算子为二者在空间维度和时间维度上的相似性,为τ1的空间相似性算子spaSim(τ1)和时间相似性算子tmSim(τ1)的乘积,表示方式如下:
stSim(τ1)=spaSim(τ1)×tmSim(τ1) (2)
其次,根据步骤1.2计算移动模式相似性算子mobSim,
最后,计算出行偏好相似性:交通个体在共同站点片区、共同线路和共同OD路径方面的出行偏好相似性分别用comZoneProb、comRouteProb和comODProb算子表示,
对于交通个体对τ1=(i,j),comZoneProb(τ1)是二者共同访问同一站点片区的累积概率和,该算子不仅与二者共同站点片区的访问频数成正比,且与二者的各自出行频率成反比,计算方式见公式(5),式中,Zi、Zj分别是个体i、j所访问的站点片区集合,p1为上述集合中共同出现的第p1个站点片区,和分别是i、j分别访问p1的频数,len(Zi)、len(Zj)分别为二者访问各自站点片区集合的加权频数,当二者共同访问的站点片区不为空,即:时,comZoneProb(τ1)>0;当Zi=Zj时,comZoneProb(τ1)=1,
comRouteProb(τ1)是交通个体对τ1共同访问同一公交线路的累计概率和,计算方式见公式(6),式中,Ri、Rj分别是个体i、j所访问的公交线路集合,p2为上述集合中共同出现的第p2条公交线路,分别是i、j访问p2的频数,len(Ri)、len(Rj)分别为二者访问各自公交线路集合的加权频数,当二者共同访问的公交线路不为空,即:时,comRouteProb(τ1)>0;当Ri=Rj时,comRouteProb(τ1)=1,
comODProb(τ1)是交通个体对τ1共同访问同一OD路径的累计概率和,计算方式见公式(7),式中,ODi、ODj分别是个体i、j所使用的OD路径集合,p3为上述集合中共同使用的第p3条OD路径,分别是i、j使用p3的频数,len(ODi)、len(ODj)为二者使用各自OD集合的加权频数,当二者共同使用的OD路径不为空,即:时,comODProb(τ1)>0;当ODi=ODj时,comODProb(τ1)=1,
上述算子集合构成5维特征向量集是步骤4中构建Wrs模型所需的交通行为相似性特征变量,
步骤3具体为:
具有社会关联性的两两交通个体的行为交互性主要表现为相遇属性;当交通个体对的出行记录共同出现在同一交通线路上的一个站点或者一段区间上,视为二者相遇;采用二元算子来描述任一交通个体对τ1的出行记录是否存在相遇事件;当意味着交通个体i和j未相遇;否则相遇;度量τ1在相遇地点的间隔大小encGap、相遇时间段长短encDurTm、相遇次数多少encTmsProb这3维属性,来量化二者交通行为的交互强度;同时引入来标识τ1的相遇属性,其中,l是描述τ1相遇的特征维度,l=3;
步骤4具体为:
在步骤1.3对具有移动模式相似的交通个体对进行提取后,采用步骤2和步骤3提取步骤4所需的特征变量,用于Wrs模型构建,以检测交通个体对τ1的关联强度,模型的构建方式分为以下3步;
步骤4.1:度量任一交通个体对τ1=(i,j)的原生相似性Rs(τ1)
经典Rs模型对任一交通个体对τ1的关联强度的联合概率分布模型由式(8)表示,其中,τ1=(i,j)∈D,D为两两交通个体对的集合,且D=[(i1,j1),(i2,j2),…(iN,jN)]T;
步骤4.2:度量基于社区驱动的邻里关系相似性RsNb(τ1)
对于任一交通个体对τ1的共有社区Nb(τ1)而言,其内任一邻居k∈Nb(τ1)必然与i和j保持关联性,k=1,2,...,K,K为Nb(τ1)社区的大小;令τ2表示交通个体i和k构成的个体对,τ2=(i,k);令τ3表示交通个体j和k构成的个体对,τ3=(j,k),那么τ2、τ3的联合相似性Rs(τ2)Rs(τ3)对RsNb(τ1)起积极贡献作用;引入移动模式衰减系数来平衡邻里关系相似性的综合作用,即则RsNb(τ1)是τ2和τ3在移动模式衰减效应下的联合相似性的累积值,计算方式见公式(9),
步骤4.3:度量任一交通个体对τ1的加权相似性Wrs(τ1)
联合概率加权模型Wrs不仅考虑了步骤4.1中任一交通个体对τ1的在经典联合概率模型Rs下的原生相似性Rs(τ1),也同时加权度量了步骤4.2中τ1在社区驱动下的邻里关系相似性RsNb(τ1),因此,基于联合概率加权模型Wrs的加权相似性Wrs(τ1)的表达方式见公式(10),其中,α和β分别为Rs(τ1)和RsNb(τ1)的权重系数,β=1-α且α,β>0,β由所有共有社区大小之和在除Kall外的全部个体对的社区总和N×ns中的比重决定,即β=Kall/(N×ns-Kall),
Wrs(τ1)=αRs(τ1)+βRsNb(τ1) (10)
将式(8)和(9)带入(10)中,得任一对交通个体τ1在联合概率加权模型Wrs下的相似性度量函数Wrs(τ1)为:
分别采用Gaussian模型和Logistic模型来实例化(11)中的条件概率模型和τη=τ1,τ2,τ3,见式(12)和(13),式(12)中,是行为相似变量的5维权重向量,νη是加权的方差大小,式(13)中,是行为交互变量与关联变量的组合变量,是的l+1维权重变量,且b是Logistic模型中的常数项,决定行为交互性对二者关联性评估的初始贡献大小,
为了避免参数ωη和θη过拟合,引入L2正则项来约束二者,如式(14)和(15)所示,式中,和分别为ωη和θη的权重系数;
综上,所有两两交通个体的关联强度联合概率加权相似性如式(16)所示,
采用最大似然法对上式取对数似然函数,如式(17)所示,
其中,
进一步估计D中潜变量ωη、θη,η=1,2,3,采用牛顿-拉弗森法Newton-Raphson迭代求解潜变量θη,如式(18)、(19)所示;采用脊回归方法Ridge regression scheme迭代求解潜变量ωη,如式(20)所示,该式中,或或
ωη=(λωI+STS)-1STR (20)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811085836.0/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置