[发明专利]基于wifi探测技术的枢纽换乘区域旅客走行路径识别方法及设备有效
申请号: | 202011503692.3 | 申请日: | 2020-12-18 |
公开(公告)号: | CN112672379B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 周正全;李昱瑾;赵慧 | 申请(专利权)人: | 北京市市政工程设计研究总院有限公司 |
主分类号: | H04W24/08 | 分类号: | H04W24/08;G06F18/23213;G06Q50/26;G06F18/24;G06F17/18;G06F18/22 |
代理公司: | 北京万科园知识产权代理有限责任公司 11230 | 代理人: | 杜澄心;张亚军 |
地址: | 100082 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 wifi 探测 技术 枢纽 换乘 区域 旅客 行路 识别 方法 设备 | ||
1.一种基于wifi探测技术的枢纽换乘区域旅客走行路径识别方法,包括以下步骤:
(1)wifi探测设备参数配置;
在采集数据之前需要配置wifi探测设备的相关参数,包括时间设置和数据上传参数设置两部分;
将wifi探测设备时间设置成与时钟一致的时间,即本地时间;
在数据上传参数设置部分,设置采集数据的周期,将采集到的数据实时保存至sd储存卡内,并设置储存文件大小,超过后计入下一个文件;
(2)在wifi探测设备采集的原数据基础上剔除错误数据样本;
记录每台wifi探测设备发射信号覆盖范围内所有打开了wifi信号的手机信息,记录内容包括其手机mac地址,记录时间,rssi信号强度范围;wifi设备采集的原始数据按照数据大小分成若干文件夹,以txt格式储存;
对于乱码和不满足以上数据格式的数据条目,在本阶段分析中被认为是错误数据,予以剔除,原始数据为M0,剔除错误数据之后的数据集为M1;
其中,i为不同mac地址的个数,k为同一个mac地址的数据个数;
(3)基于统计学分析过滤伪数据样本;
采用统计学分析的方法,即根据数据的出现频次进行分析,对于瞬时多频次出现的数据进行过滤;
基于剔除错误数据后的数据集合M1,其中共包含有I个mac地址,分别为{mac1,mac2,…,maci,…,macI},其中有效mac地址J个,伪数据G个,且J+G=I;按照mac地址的不同计算第i个mac地址的出现频次,即{α1,α2,…,αi,…,αI},定义一个阈值β作为判定是否为伪数据的条件,依据统计学的分析,可得到βi≥αi的累计频率为γi,不同的βi对应的γi不同,γi的推荐值定义为γg,γg取值10%-15%,与γg对应的数据集为伪数据集,记为M1g,
按照以上条件对数据进行清洗,去除伪数据之后的数据样本记为M2;
其中,j为剔除伪数据之后的不同mac地址的个数,k为同一个mac地址的数据个数;
(4)利用K-means聚类分析算法,根据rssi绝对值的大小将数据样本聚类;
K-means算法描述为:假设给定一个整数Z以及一个具有n个数据对象的样本集合目标是选择Z个聚类中心C使目标函数F达到最小,其中目标函数F的计算公式为:
其中,s代表与mac地址对应的rssi的值,c代表中心点的rssi值;
在数据集M2中,随机选取Z个中心,集合中其他数据对象被划分到与中心最近的数据集合中去,形成了Z个初始的数据集合,也称为簇,对于每个数据集合计算新的中心,然后根据新的中心重新分配其他数据集合,不断迭代,指导数据中心不再变化;
在样本数据M2的基础上,设置初始簇Z值为3个,初始的中心为c11,c12,c13,经过迭代计算后,得到新的中心为c21,c22,c23,其中c21对应的数据集为S1,包含m个数据样本{s11,s12,s13,…,s1m,},样本个数的累计频率即为pm;c22对应的数据集为S2,包含n个数据样本{s21,s22,s23,…,s2n,},样本个数的累计频率即为pn;c23对应的数据集为S3,包含个数据样本{s3k(1),s3k(2),s3k(3),…,s3k(x),},样本个数的累计频率即为pχ,假设px=max(pm、pn、pχ),那么pχ对应的集合为有效数据,即该数据集是在wifi探测设备有效距离内的数据;
按照以上条件对数据进行清洗后的数据样本记为M3,
其中,χ为rssi符合条件要求的不同mac地址的个数,k为同一个mac地址的数据个数;
(5)基于K-means聚类分析算法确定换乘区域内旅客动态位置;
经过以上步骤筛选得到的不同mac地址代表不同的旅客,对各检测器检测到的mac地址进行分类处理后,明确了旅客在换乘区域内的位置;根据wifi探测设备捕获得到的rssi的强弱不同,对数据样本进一步筛选,得到的M3是包括mac地址实时位置信息的数据集;
(6)识别换乘区域内客流类型;
根据最初捕获时间和最后一次捕获时间的差值可以甄别出行旅客;
假设tχ1为首次捕获时间,tχ2为末次捕获时间,tχ为移动设备在换乘区域内的滞留时间,tχ=tχ2-tχ1,tχ≥Tχ1的概率为θ1,tχ≤Tχ2的概率为θ2;根据滞留时间的分布特征给予θ1和θ2特定的阈值,θ1值为1%-5%,θ2值为10%-20%;假设1%≤θq1≤5%,10%≤θq2≤20%,对应的数据集为M4;
其中,q为滞留时间符合条件要求的不同mac地址的个数,k为同一个mac地址的数据个数;
(7)匹配枢纽换乘区域各检测点之间的数据样本,获取旅客动态位置信息,识别旅客走行路径;
针对同一个mac地址,识别在每个检测位置rssi最大绝对值出现的时刻,并按照时间顺序进行串联,进而得到该旅客的走行路径;假设枢纽换乘区域检测点共N个,每个检测点检测到的数据集为M4n,M4由{M41,M42,…,M4n…,M4N}组成;M4n内的mac地址为mac4n,mac4n在同一个检测点可能被检测到k次,即M4n={mac4n1,mac4n2,mac4n3,…,mac4nk},对比以上k个数据的rssi值,rssi绝对值最大的为保留用于匹配的最终数据,记为mac4nq,M4nq={mac41q,mac42q,mac43q,…,mac4nq},即选取rssi最大绝对值对应的数据集作为该mac地址在此检测点最为有效的数据;
将每个检测点的mac4nq与检测位置进行匹配,匹配之后的数据形成数据集M5={M41q,M42q,…,M4nq…,M4Nq};
此数据集中均带有各个检测位置的rssi信息和与其对应的time信息,按照time时间顺序将mac地址对应的检测点进行串联,获取该旅客在枢纽换乘区域内的动态位置信息,为枢纽旅客出行特征分析提供依据。
2.一种基于wifi探测技术的枢纽换乘区域旅客走行路径识别设备,其特征在于,包括:
1)、数据采集模块:
经过本地时钟、采集数据周期的设置,将采集到的数据实时保存至sd储存卡内,并设置储存文件大小,超过后计入下一个文件的wifi探测设备;
2)、数据预处理模块:
首先,在wifi探测设备采集的原数据基础上剔除错误数据样本;
记录每台wifi探测设备发射信号覆盖范围内所有打开了wifi信号的手机信息,记录内容包括其手机mac地址,记录时间,rssi信号强度范围;wifi设备采集的原始数据按照数据大小分成若干文件夹,以txt格式储存,
对于乱码和不满足以上数据格式的数据条目,在本阶段分析中被认为是错误数据,予以剔除,原始数据为M0,剔除错误数据之后的数据集为M1;
其中,i为不同mac地址的个数,k为同一个mac地址的数据个数;
其次,基于统计学分析过滤伪数据样本;
采用统计学分析的方法,即根据数据的出现频次进行分析,对于瞬时多频次出现的数据进行过滤;
基于剔除错误数据后的数据集合M1,其中共包含有I个mac地址,分别为{mac1,mac2,…,maci,…,macI},其中有效mac地址J个,伪数据G个,且J+G=I;按照mac地址的不同计算第i个mac地址的出现频次,即{α1,α2,…,αi,…,αI},定义一个阈值β作为判定是否为伪数据的条件,依据统计学的分析,可得到βi≥αi的累计频率为γi,,不同的βi对应的γi不同,γi的推荐值定义为γg,γg取值10%-15%,与γg对应的数据集为伪数据集,记为M1g,
按照以上条件对数据进行清洗,去除伪数据之后的数据样本记为M2;
其中,j为剔除伪数据之后的不同mac地址的个数,k为同一个mac地址的数据个数;
第三,利用K-means聚类分析算法,根据rssi绝对值的大小将数据样本聚类;
K-means算法描述为:假设给定一个整数Z以及一个具有n个数据对象的样本集合目标是选择Z个聚类中心C使目标函数F达到最小,其中目标函数F的计算公式为:
其中,s代表与mac地址对应的rssi的值,c代表中心点的rssi值;
在数据集M2中,随机选取Z个中心,集合中其他数据对象被划分到与中心最近的数据集合中去,形成了Z个初始的数据集合,也称为簇,对于每个数据集合计算新的中心,然后根据新的中心重新分配其他数据集合,不断迭代,指导数据中心不再变化;
在样本数据M2的基础上,设置初始簇Z值为3个,初始的中心为c11,c12,c13,经过迭代计算后,得到新的中心为c21,c22,c23,其中c21对应的数据集为S1,包含m个数据样本{s11,s12,s13,…,s1m,},样本个数的累计频率即为pm;c22对应的数据集为S2,包含n个数据样本{s21,s22,s23,…,s2n,},样本个数的累计频率即为pn;c23对应的数据集为S3,包含个数据样本{s3k(1),s3k(2),s3k(3),…,s3k(x),},样本个数的累计频率即为pχ,假设px=max(pm、pn、pχ),那么pχ对应的集合为有效数据,即该数据集是在wifi探测设备有效距离内的数据;
按照以上条件对数据进行清洗后的数据样本记为M3,
其中,χ为rssi符合条件要求的不同mac地址的个数,k为同一个mac地址的数据个数;
第四,基于K-means聚类分析算法确定换乘区域内旅客动态位置;
经过以上步骤筛选得到的不同mac地址代表不同的旅客,对各检测器检测到的mac地址进行分类处理后,明确了旅客在换乘区域内的位置;根据wifi探测设备捕获得到的rssi的强弱不同,对数据样本进一步筛选,得到的M3是包括mac地址实时位置信息的数据集;
第五,识别换乘区域内客流类型:根据最初捕获时间和最后一次捕获时间的差值可以甄别出行旅客;
假设tχ1为首次捕获时间,tχ2为末次捕获时间,tχ为移动设备在换乘区域内的滞留时间,tχ=tχ2-tχ1,tχ≥Tχ1的概率为θ1,tχ≤Tχ2的概率为θ2;根据滞留时间的分布特征给予θ1和θ2特定的阈值,θ1值为1%-5%,θ2值为10%-20%;假设1%≤θq1≤5%,10%≤θq2≤20%,对应的数据集为M4;
其中,q为滞留时间符合条件要求的不同mac地址的个数,k为同一个mac地址的数据个数;
3)、数据匹配模块:
匹配枢纽换乘区域各检测点之间的数据样本,获取旅客动态位置信息,识别旅客走行路径;针对同一个mac地址,识别在每个检测位置rssi最大绝对值出现的时刻,并按照时间顺序进行串联,进而得到该旅客的走行路径;假设枢纽换乘区域检测点共N个,每个检测点检测到的数据集为M4n,M4由{M41,M42,…,M4n…,M4N}组成;M4n内的mac地址为mac4n,mac4n在同一个检测点可能被检测到k次,即M4n={mac4n1,mac4n2,mac4n3,…,mac4nk},对比以上k个数据的rssi值,rssi绝对值最大的为保留用于匹配的最终数据,记为mac4nq,M4nq={mac41q,mac42q,mac43q,…,mac4nq},即选取rssi最大绝对值对应的数据集作为该mac地址在此检测点最为有效的数据;
将每个检测点的mac4nq与检测位置进行匹配,匹配之后的数据形成数据集M5={M41q,M42q,…,M4nq…,M4Nq};
此数据集中均带有各个检测位置的rssi信息和与其对应的time信息,按照time时间顺序将mac地址对应的检测点进行串联,获取该旅客在枢纽换乘区域内的动态位置信息,为枢纽旅客出行特征分析提供依据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京市市政工程设计研究总院有限公司,未经北京市市政工程设计研究总院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011503692.3/1.html,转载请声明来源钻瓜专利网。