[发明专利]一种基于用户轨迹数据的群体聚集模式分析方法和系统在审
申请号: | 201910654984.8 | 申请日: | 2019-07-19 |
公开(公告)号: | CN110457315A | 公开(公告)日: | 2019-11-15 |
发明(设计)人: | 李超;王博;郭承青;付戈;丁煜;王昕培;王维光;庹宇鹏;史成洁 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心;中国科学院信息工程研究所 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/215;G06K9/62;H04L29/08 |
代理公司: | 11200 北京君尚知识产权代理有限公司 | 代理人: | 邱晓锋<国际申请>=<国际公布>=<进入 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 轨迹数据 快照 人群 集合 模式分析 位置数据 用户轨迹 时空 对象位置 轨迹日志 海量用户 快速处理 人群聚集 时间顺序 同一用户 用户群体 时间点 构建 聚类 整合 发现 封闭 群体 保证 | ||
1.一种基于用户轨迹数据的群体聚集模式分析方法,其特征在于,包括以下步骤:
1)通过用户群体轨迹数据提取用户的位置数据;
2)将各个时间点同一用户的位置数据按照时间顺序整合,形成在时空上具有连续性的轨迹数据;
3)根据用户的在时空上具有连续性的轨迹数据构建K-D Tree;
4)基于K-D Tree对用户轨迹点进行聚类,得到多个人群的快照簇;
5)根据人群的快照簇发现候选人群集合,进而根据候选人群集合发现封闭人群集合。
2.根据权利要求1所述的方法,其特征在于,步骤1)包括:
1.1)利用Spark Streaming流处理程序,从线上Kafka队列接收用户群体轨迹数据,并提取用户位置相关信息,实现用户群体轨迹数据的高效读取;
1.2)对获取的用户群体轨迹数据进行数据清洗,识别去除噪声数据及缺失项;
1.3)提取清洗后的用户群体轨迹数据中的地理位置信息,转换为用户ID及经纬度对的形式。
3.根据权利要求1所述的方法,其特征在于,步骤2)通过查询历史轨迹数据,将各个时间点同一用户的位置数据按照时间顺序整合并以一定时间为单位进行切片,每天包含若干个时间切片,形成在时空上具有连续性的轨迹数据。
4.根据权利要求1所述的方法,其特征在于,步骤3)将当前时间片的每个对象按照经纬度两个维度添加到同一棵K-D Tree;步骤4)对于当前待处理对象,根据邻域半径ε判断当前对象经纬度的上下限,在K-D Tree上查找符合经纬度上下限要求的对象。
5.根据权利要求4所述的方法,其特征在于,步骤3)所述构建K-D Tree包括:
3.1)遍历在同一时间切片内的二维位置数据,生成标识当前用户位置数据的结点,根据K-D Tree上已有结点所在维度k,比较此维度上下界的范围,搜索符合该结点经纬度的非空子树;
3.2)在该子树上继续重复步骤1,直到找到合适的位置插入此新结点。
6.根据权利要求5所述的方法,其特征在于,步骤4)所述聚类为DBSCAN聚类,包括:
4.1)对当前时间片所有包含用户信息及位置数据的对象设置不同的对象ID并构建一棵K-D Tree pkdt;
4.2)遍历对象p,在pkdt上检索所有从p关于ε-邻域和MinPts密度可达的对象:对于核心对象,构建以p为起点、其邻域内对象为终点的边集;对于边缘对象,构建以p自身为起点和终点的边,得到边集Edges;
4.3)构建当前时间片所有对象的顶点集Vertexs,以边集Edges和顶点集Vertexs构建图G;
4.4)计算图G的连通分支,每个连通分支ID设置为分支中序号最小的顶点的ID;
4.5)遍历图G中的边,返回<ID,边>结构的二元组,其中ID是边所在连通分支的ID,得到的同一连通分支内每条边所在二元组都具有相同ID;
4.6)对步骤(4.5)中的二元组按照ID合并成多个列表,每个列表是ID相同的位置对象,位置对象ID重置为列表中第一个对象的用户ID。
7.根据权利要求1所述的方法,其特征在于,步骤4)所述快照簇的定义为:给定用户时空数据集合ODB,ODB在第i个时间片的子集ODB(ti),距离阈值ε,对象个数阈值MinPts,快照簇c(ti)是集合的非空子集,且O(ti)满足以下条件:
a)oq(ti)∈O(ti),op(ti)关于ε和MinPts与oq(ti)是密度相连的,其中op(ti)、oq(ti)为集合O(ti)中密度相连的两个对象;
b)不存在一个更大的集合O’(ti)使得如果oq(ti)∈O(ti),且op(ti)从oq(ti)是关于ε和MinPts密度可达的,则op(ti)∈O(ti)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;中国科学院信息工程研究所,未经国家计算机网络与信息安全管理中心;中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910654984.8/1.html,转载请声明来源钻瓜专利网。