[发明专利]一种基于特征提取的公共交通可疑卡识别方法有效
申请号: | 201711047767.X | 申请日: | 2017-10-31 |
公开(公告)号: | CN107730717B | 公开(公告)日: | 2019-08-30 |
发明(设计)人: | 涂来;邴昊天;文菁 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G07F7/08 | 分类号: | G07F7/08;G06K9/62 |
代理公司: | 华中科技大学专利中心 42201 | 代理人: | 王世芳;李智 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 特征 提取 公共交通 可疑 识别 方法 | ||
1.一种基于特征提取的公共交通可疑卡识别方法,其特征在于,包括如下步骤:
离线训练步骤:提取样本用户的十二维出行特征值,建立样本用户的特征矩阵,将样本用户中的小偷用户的特征矩阵作为负样本,普通用户的特征矩阵作为正样本,对选定的分类模型进行训练,得到可疑卡分类器;十二维出行特征值包括出行时长、刷卡频次、出行次数、上车站点数、下车站点数、乘坐线路数、功能区域数、陡度、最常上车站点数、最常下车站点数、最常乘坐线路数以及最常出现功能区域数;
在线识别步骤:按照构建样本用户的特征矩阵的方法,构建待识别用户的特征矩阵,利用训练后的可疑卡分类器对待识别用户的特征矩阵进行用户类型识别,以识别出疑似小偷使用的可疑卡。
2.如权利要求1所述的一种基于特征提取的公共交通可疑卡识别方法,其特征在于,离线训练步骤中,构建样本用户的特征矩阵的方法如下:
首先,获取样本用户的IC卡刷卡数据、公交车和/或地铁的GPS数据以及站点数据;
其次,对上述各数据中的无效字段以及格式或者信息错误的数据进行过滤,保留有效字段和数据,并去除公交GPS数据漂移点;
然后,根据过滤后的IC卡刷卡数据提取上车、下车站点的序号,根据站点序号匹配站点信息,然后结合GPS数据和站点数据,分别计算出公交和地铁的出行OD,并按照IC卡的ID将同一IC卡的公交和地铁的出行记录进行合并处理;
随后,根据合并后的出行记录,以天为时间粒度,分别从时间维度、空间维度提取样本用户的十二维出行特征值;
最后,利用样本用户的十二维出行特征值构建n×13的特征矩阵,每一个用户对应矩阵的一条行向量,第1列为用户分类结果,普通用户分类结果为+1,小偷分类结果为-1,第2~13列为用户的十二维出行特征值,其中,n为样本用户总数量。
3.如权利要求2所述的一种基于特征提取的公共交通可疑卡识别方法,其特征在于,提取样本用户在工作日的十二维出行特征值,其中,陡度每周计算,其余十一维出行特征值每日计算。
4.如权利要求2或3所述的一种基于特征提取的公共交通可疑卡识别方法,其特征在于,在离线训练步骤中,样本用户中的小偷用户为已知,普通用户是按照预定的与小偷用户的比例,从待识别用户中选取;
设定普通用户的特征矩阵为正样本,小偷用户的特征矩阵为负样本;正样本用+1标识,负样本用-1标识,对选定的分类函数进行训练,得到可疑卡训练器。
5.如权利要求4所述的一种基于特征提取的公共交通可疑卡识别方法,其特征在于,待识别用户中选取普通用户的方法如下:
首先,从待识别用户的十二维出行特征值中随机选取一批数据点,取其平均值作为对应的各个维度的中心点;
然后,根据各用户的十二维出行特征值到该用户各对应维度的中心点的距离进行聚类;
最后,根据已知的小偷用户的数量按预定比例确定普通用户数量,按照聚类后得到的各类别的人数,从每一个类别中选取部分用户,组成普通用户的样本。
6.如权利要求5所述的一种基于特征提取的公共交通可疑卡识别方法,其特征在于,分类函数选用高斯核函数:
exp(-gamma|u-v|2)
其中,gamma是函数类型,其默认值为类别数的倒数,
u是特征值,
v是交叉验证数。
7.如权利要求1~6任意一项所述的一种基于特征提取的公共交通可疑卡识别方法,其特征在于,包括在识别出小偷用户后,进一步识别疑似小偷同伙使用的伴随卡的步骤:
首先,对所有待识别用户的出行OD进行聚类;然后,根据指定的时间和地点阈值范围,从与已识别的小偷用户的出行OD类别相同的用户中,识别出疑似小偷同伙使用的伴随卡。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711047767.X/1.html,转载请声明来源钻瓜专利网。