[发明专利]基于大数据挖掘的模糊共站分析方法及其分析系统有效
申请号: | 201911314576.4 | 申请日: | 2019-12-19 |
公开(公告)号: | CN110990722B | 公开(公告)日: | 2020-11-06 |
发明(设计)人: | 薛岭 | 申请(专利权)人: | 南京柏跃软件有限公司 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06F16/9537 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210012 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 数据 挖掘 模糊 分析 方法 及其 系统 | ||
1.一种基于大数据挖掘的模糊共站分析方法,其特征在于,包括以下步骤:
S1:邻近站点位置泛同一化,由于站点分布具有偏向性以及数据采集机制,将站点标签数据作如下定义:以某个站点a为例,在其半径r以内的所有站点,包括a本身,记为f(a),称为a的泛同一站点;
S2:获取社团成员名单;
S3:获取社团成员的轨迹并做预处理;
S4:根据已知社团成员的轨迹,获取可能存在与之共站的其他人的轨迹数据,并进行相应的预处理;
S5:将社团成员和其他人的轨迹合并后按时间排序;
S6:定义单次共站强度;共站强度描述的是两个人的在相似的时间点出现在准相同的地点的可能性;
S7:消除数据倾斜,汇总共站强度;
S8:确定疑似社团成员,进一步核实和更新社团成员名单。
2.根据权利要求1所述的基于大数据挖掘的模糊共站分析方法,其特征在于,所述步骤S3中,对每个成员的轨迹数据,去重:在指定的时间间隔interval内,如果多次出现仅有时间不同,其他属性相同的记录,则只保留该重复记录中的第一条和最后一条记录;另外,如果重复数据持续的时间超过△t,则每隔△t,保留一条就近的记录,若出现相同的记录,则保留时间较早的那一条记录。
3.根据权利要求1所述的基于大数据挖掘的模糊共站分析方法,其特征在于,所述步骤S4中,在S3的基础上,获取每条记录的时间和对应的地点,从所有站点采集数据中找出和社团成员的站点数据,同一站点,时间上下浮动和同一时间,地点在泛同一站点的出现的所有人员名单,找出这些人的站点采集数据,并对这些数据按照步骤S3中按同样的方式处理。
4.根据权利要求1所述的基于大数据挖掘的模糊共站分析方法,其特征在于,所述步骤S6中,定义单次共站的强度,这里所述共站,即如果某社团成员和其他人出现在同一地点的时间点相差越小,则共站强度越大,如果出现在同一地点的时间也完全一致,则两者之间单次共站强度为1;如果两者出现在同一地点的时间差超出指定阈值δ,则定义当前单次共站强度为0。
5.根据权利要求1所述的基于大数据挖掘的模糊共站分析方法,其特征在于,所述步骤S7具体包括:消除权重的差异带来的倾斜,所谓权重的差异带来的倾斜,即如果某个人的轨迹出现多次,则更有可能会使得他与其他人的共站强度会高,消除倾斜的方法是,共站强度求和乘以两人的站点数据量的调和平均数,再除以两人的站点数据量的和;其中乘以调和平均数的意在处理两人之间数量不等的问题,除以两人站点数据量的和则是为了统一不同共站对象之间的数据量不等的问题。
6.一种基于大数据挖掘的模糊共站分析系统,其特征在于,包括社团成员名单存储模块、站点基本信息存储模块、站点采集数据存储模块、数据预处理模块、模糊共站匹配模块、共站强度计算模块、疑似社团成员存储模块;
所述社团成员名单存储模块,记录着已经证实的社团成员名单和相应的基本信息;
所述站点基本信息存储模块,记录着各采集站点的经纬度、站点名称等基本信息;
所述站点采集数据存储模块,保存着各个站点实时上传的采集身份的数据,一条数据包括如下属性,身份,时间,站点经纬度,一条记录意味着某人在该时间该站点附近出现;由于站点采集装置的不同,以及不同地点空旷程度不同,甚至天气影响,不同站点的采集装置覆盖半径不同,这会导致对人行踪采集片面的问题;于是需要对站点进行同一化、对站点采集数据去重和保留关键时间点的数据来强调人的行踪,以此来提升模型的泛化能力;
所述数据预处理模块,包括两部分:(1)邻近站点位置泛同一化;以某个站点a,在其半径r以内的所有站点,包括a本身,记为f(a),称为a的泛站点;(2)站点采集数据预处理:对每个成员的轨迹数据,去重:在指定的时间间隔interval内,如果多次出现仅有时间不同,其他属性相同的记录,则只保留该重复记录中的第一条和最后一条记录;另外,如果重复数据持续的时间超过△t,则每隔△t,保留一条就近的记录,若出现相同的记录,则保留时间较早的那一条记录;
所述模糊共站匹配模块,抽取所有人的站点采集数据,对每个站点的泛站点数据按数据实际发生的时间进行排序;
所述共站强度计算模块,(1)定义单次共站强度:如果某社团成员和其他人出现在同一地点的时间点相差越小,则共站强度越大,如果出现在同一地点的时间也完全一致,则两者之间单次共站强度为1;如果两者出现在同一地点的时间差超出指定阈值δ,则定义当前单次共站强度为0;对于距离的考量同理,但是由于采集点是离散的,所以强度关于距离的函数是间断函数;(2)消除数据倾斜,汇总共站强度:由于各方面因素,不同的人的站点数据量可能相差很多,所以,应对的方案是共站强度求和乘以两人的站点数据量的调和平均数,再除以两人的站点数据量的和;其中乘以调和平均数的意在处理两人之间数量不等的问题,除以两者数据量的和则是统一不同共站对象之间的数据量不等的问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京柏跃软件有限公司,未经南京柏跃软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911314576.4/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置