[发明专利]基于大数据挖掘的模糊共站分析方法及其分析系统有效
申请号: | 201911314576.4 | 申请日: | 2019-12-19 |
公开(公告)号: | CN110990722B | 公开(公告)日: | 2020-11-06 |
发明(设计)人: | 薛岭 | 申请(专利权)人: | 南京柏跃软件有限公司 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06F16/9537 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210012 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 数据 挖掘 模糊 分析 方法 及其 系统 | ||
本发明提供一种基于大数据挖掘的模糊共站分析方法,属于大数据挖掘技术领域。该方法包括对邻近站点的位置泛同一化;获取已知社团成员的轨迹并做预处理;根据已知社团成员的轨迹,获取可能存在共站的可能的其他人的轨迹数据,并进行相应的预处理;将社团成员和其他人的轨迹数据合并后按时间排序;定义单次两个轨迹点的共站强度;汇总共站强度,确定潜在的社团成员。本发明的有益效果是,本发明通过各个站点上传的,人进入站点监控区域的时间、站点坐标,站点名称等属性,和已知的社团成员的轨迹,寻找那些与社团成员在近似相同时间出现在近似相同地点的人。
技术领域
本发明涉及大数据挖掘领域,更具体地说,是一种基于大数据挖掘的模糊共站分析方法及其分析系统。
背景技术
社团发现已经有很长的研究历史,并且在不同的学科有不同的形式。它与图论和计算机学科中的图分割和社会网络中的层次聚类的思想联系密切。
图分割是并行计算领域研究的重要问题。假设有n个能够通信的计算处理器(处理区并不是要与其他所有的处理器相互通信)。据此可以建立一个网络,其中节点代表处理器,节点之间的边把相互通信的两个节点链接在一起。并行计算要解决的问题是为每个节点分配数量相同的任务,并且使得节点之间的通信最少,也就是使边数数量尽可能少的问题。
分层聚类是寻找社会网络中的社团结构的一类传统算法,这种算法是社会科学家在研究社会网络时提出的发现社会网络中社团结构的方法。它是基于各个节点之间连接的相似性或者强度,把网络自然的分为若干个子群。根据向网络中新增边还是删减边,该算法又分为两类:凝聚算法(agglomerative method)和分裂算法(divisive method)。
Giran和Newman提出了一种新的基于边移除的算法称为GN算法。GN算法寻找处于社团之间的边,然后移除这些边,从而找出网络中的社团。
上述的GN算法,每移除一条边后都要重新计算边的介,这就使得此算法的复杂度较高。为此,出现了很多基于GN算法的优化。这些算法很多都是从改进边的度量以高算法的执行速度。例如Tyler算法和Radicchi算法。并且还引出了一类优化模块度Q的算法。
除了上述的算法,还有一些基于其他思想的算法。例如,在已知社团数目的前提下,Wu和Huberman提出了一种基于电阻网络电压谱的快速分割算法,这种算法不但可以发现网络中的社团,而且还能在不考虑社团结构的前提下,寻找一个节点所在的整个社团,这是很多算法无法实现的。
考虑到本场景的特殊性,在社团成员出现的分布未知,而且存在大量缺失数据,导致不同研究个体之间数据量严重失衡,并且在无法构建边的前提下,考虑模糊匹配,利用概率论中的贝叶斯和极大似然的思想,通过构建共站强度这一统计量,用以刻画与已知的社团成员之间联系紧密,暨属于同一社团的可能性。
发明内容
本发明实施例的目的在于提供一种基于大数据挖掘的模糊共站分析方法,旨在通过对大数据进行分析计算,找到潜在的社团成员。
为了实现上述目的,本发明的技术方案如下:
S1:邻近站点位置泛同一化;
S2:获取社团成员名单;
S3:获取社团成员的轨迹并做预处理;
S4:根据已知社团成员的轨迹,获取可能存在与之共站的其他人的轨迹数据,并进行相应的预处理;
S5:将社团成员和其他人的轨迹合并后按时间排序;
S6:定义单次共站强度;共站强度描述的是两个人的在相似的时间点出现在准相同的地点的可能性;
S7:消除数据倾斜,汇总共站强度;
S8:确定疑似社团成员,进一步核实和更新社团成员名单;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京柏跃软件有限公司,未经南京柏跃软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911314576.4/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置