[发明专利]基于大数据挖掘的模糊共站分析方法及其分析系统有效

专利信息
申请号: 201911314576.4 申请日: 2019-12-19
公开(公告)号: CN110990722B 公开(公告)日: 2020-11-06
发明(设计)人: 薛岭 申请(专利权)人: 南京柏跃软件有限公司
主分类号: G06F16/9536 分类号: G06F16/9536;G06F16/9537
代理公司: 暂无信息 代理人: 暂无信息
地址: 210012 江苏省南京*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 数据 挖掘 模糊 分析 方法 及其 系统
【权利要求书】:

1.一种基于大数据挖掘的模糊共站分析方法,其特征在于,包括以下步骤:

S1:邻近站点位置泛同一化,由于站点分布具有偏向性以及数据采集机制,将站点标签数据作如下定义:以某个站点a为例,在其半径r以内的所有站点,包括a本身,记为f(a),称为a的泛同一站点;

S2:获取社团成员名单;

S3:获取社团成员的轨迹并做预处理;

S4:根据已知社团成员的轨迹,获取可能存在与之共站的其他人的轨迹数据,并进行相应的预处理;

S5:将社团成员和其他人的轨迹合并后按时间排序;

S6:定义单次共站强度;共站强度描述的是两个人的在相似的时间点出现在准相同的地点的可能性;

S7:消除数据倾斜,汇总共站强度;

S8:确定疑似社团成员,进一步核实和更新社团成员名单。

2.根据权利要求1所述的基于大数据挖掘的模糊共站分析方法,其特征在于,所述步骤S3中,对每个成员的轨迹数据,去重:在指定的时间间隔interval内,如果多次出现仅有时间不同,其他属性相同的记录,则只保留该重复记录中的第一条和最后一条记录;另外,如果重复数据持续的时间超过△t,则每隔△t,保留一条就近的记录,若出现相同的记录,则保留时间较早的那一条记录。

3.根据权利要求1所述的基于大数据挖掘的模糊共站分析方法,其特征在于,所述步骤S4中,在S3的基础上,获取每条记录的时间和对应的地点,从所有站点采集数据中找出和社团成员的站点数据,同一站点,时间上下浮动和同一时间,地点在泛同一站点的出现的所有人员名单,找出这些人的站点采集数据,并对这些数据按照步骤S3中按同样的方式处理。

4.根据权利要求1所述的基于大数据挖掘的模糊共站分析方法,其特征在于,所述步骤S6中,定义单次共站的强度,这里所述共站,即如果某社团成员和其他人出现在同一地点的时间点相差越小,则共站强度越大,如果出现在同一地点的时间也完全一致,则两者之间单次共站强度为1;如果两者出现在同一地点的时间差超出指定阈值δ,则定义当前单次共站强度为0。

5.根据权利要求1所述的基于大数据挖掘的模糊共站分析方法,其特征在于,所述步骤S7具体包括:消除权重的差异带来的倾斜,所谓权重的差异带来的倾斜,即如果某个人的轨迹出现多次,则更有可能会使得他与其他人的共站强度会高,消除倾斜的方法是,共站强度求和乘以两人的站点数据量的调和平均数,再除以两人的站点数据量的和;其中乘以调和平均数的意在处理两人之间数量不等的问题,除以两人站点数据量的和则是为了统一不同共站对象之间的数据量不等的问题。

6.一种基于大数据挖掘的模糊共站分析系统,其特征在于,包括社团成员名单存储模块、站点基本信息存储模块、站点采集数据存储模块、数据预处理模块、模糊共站匹配模块、共站强度计算模块、疑似社团成员存储模块;

所述社团成员名单存储模块,记录着已经证实的社团成员名单和相应的基本信息;

所述站点基本信息存储模块,记录着各采集站点的经纬度、站点名称等基本信息;

所述站点采集数据存储模块,保存着各个站点实时上传的采集身份的数据,一条数据包括如下属性,身份,时间,站点经纬度,一条记录意味着某人在该时间该站点附近出现;由于站点采集装置的不同,以及不同地点空旷程度不同,甚至天气影响,不同站点的采集装置覆盖半径不同,这会导致对人行踪采集片面的问题;于是需要对站点进行同一化、对站点采集数据去重和保留关键时间点的数据来强调人的行踪,以此来提升模型的泛化能力;

所述数据预处理模块,包括两部分:(1)邻近站点位置泛同一化;以某个站点a,在其半径r以内的所有站点,包括a本身,记为f(a),称为a的泛站点;(2)站点采集数据预处理:对每个成员的轨迹数据,去重:在指定的时间间隔interval内,如果多次出现仅有时间不同,其他属性相同的记录,则只保留该重复记录中的第一条和最后一条记录;另外,如果重复数据持续的时间超过△t,则每隔△t,保留一条就近的记录,若出现相同的记录,则保留时间较早的那一条记录;

所述模糊共站匹配模块,抽取所有人的站点采集数据,对每个站点的泛站点数据按数据实际发生的时间进行排序;

所述共站强度计算模块,(1)定义单次共站强度:如果某社团成员和其他人出现在同一地点的时间点相差越小,则共站强度越大,如果出现在同一地点的时间也完全一致,则两者之间单次共站强度为1;如果两者出现在同一地点的时间差超出指定阈值δ,则定义当前单次共站强度为0;对于距离的考量同理,但是由于采集点是离散的,所以强度关于距离的函数是间断函数;(2)消除数据倾斜,汇总共站强度:由于各方面因素,不同的人的站点数据量可能相差很多,所以,应对的方案是共站强度求和乘以两人的站点数据量的调和平均数,再除以两人的站点数据量的和;其中乘以调和平均数的意在处理两人之间数量不等的问题,除以两者数据量的和则是统一不同共站对象之间的数据量不等的问题。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京柏跃软件有限公司,未经南京柏跃软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911314576.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top