[发明专利]一种海量数据聚类分析方法及装置在审

专利信息
申请号: 201911270066.1 申请日: 2019-12-12
公开(公告)号: CN110717086A 公开(公告)日: 2020-01-21
发明(设计)人: 查文宇;曾理;徐浩;王纯斌;赵神州;张艳清 申请(专利权)人: 成都四方伟业软件股份有限公司
主分类号: G06F16/906 分类号: G06F16/906;G06F16/901
代理公司: 暂无信息 代理人: 暂无信息
地址: 610041 四川省*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 海量数据分析 海量数据 类簇 算法 分布式框架 并行计算 负载均衡 交叠分区 聚类分析 密度聚类 合并 聚类 运算
【说明书】:

发明公开了一种海量数据聚类分析方法及装置,本发明的目的在于实现一种基于并行计算的DBSCAN算法,解决传统密度聚类算法无法进行海量数据分析的问题。该发明提出了高效的交叠分区和类簇合并策略,能够快速的进行数据拆分和类簇合并,并且该方法充分考虑了负载均衡,可以在分布式框架下实现高效运算,从而支持海量数据的聚类,高效地解决了传统DBSCAN无法进行海量数据分析的问题,因此该方法具有较高的性能和实用价值。

技术领域

本发明涉及数据分析领域,特别涉及一种海量数据聚类分析方法及装置。

背景技术

随着社会经济的发展、电话、互联网的普及,电信诈骗犯罪率不断升高,而且由于电信诈骗借助于边界的通信手段,因此造成的社会危害范围更广。与一般的刑事案件不同,电信诈骗有一定门槛,一般是团伙作案,因此通过犯罪嫌疑人的通话和网络行为数据识别犯罪团伙成为公安机关遏制电信诈骗犯罪的一种有效途径。

随着大数据时代的到来,数据挖掘已经成为一把服务于公共安全领域的利器。通过数据挖掘对犯罪嫌疑人的数据分布规律进行挖掘,能够有效的识别其中的特征。犯罪团伙识别中最常见的方式为聚类算法。例如:李亮基于改进的GN算法设计了嫌疑人的社会网络识别算法,潘潇基于Louvain进行了电信诈骗的团伙识别。

但随着大数据时代的发展,人们的行为产生的数据特征和数据量快速增加,已经远远超出传统方法的数据处理能力。因此,传统的电信诈骗犯罪团伙识别方法并不能快速有效地在大数据环境下对犯罪团伙进行有效地甄别。为了更好的根据公安部门所掌握的数据来识别出电信诈骗犯罪团伙,创立一种支持多维度数据,高效,负载均衡的电信诈骗团伙甄别方法是很有必要的。

发明内容

本发明的目的在于:提供了一种海量数据聚类分析方法及装置,解决了随着大数据时代的发展,人们的行为产生的数据特征和数据量快速增加,已经远远超出传统方法的数据处理能力,因此,传统目标识别方法并不能快速有效地在大数据环境下对目标进行有效地甄别的问题。

本发明采用的技术方案如下:

一种海量数据聚类分析方法,包括以下步骤:

S1、基于交叠分区的GeoHash编码算法对原始数据进行处理,确定原始数据中的各个数据对应的分区;

S2、在每个分区内对分区内的数据并行进行聚类,并保存聚类ID;

S3、将分区结果合并后可以得到全局的类簇ID。

基于疟疾传播动力学模型、多维空间GeoHash编码和交叠分区策略,疟疾是一种可以跨种群转播的疾病,可以通过水源、食物、身体接触等方式在宿主之间传播。在疾病的传播理论中基于传染病动力学一般分为 S、I、R 三个状态每个状态个体的特点如下:S 态-易感态个体,该状态的个体不不具备传播传染病的能力,但是在传染病传播的过程中可能会被患病个体传染;I 态-感染态个体,这类状态的个体已经患病,并且具有感染能力,可以将传染病传染给其他个体;R 态-恢复态个体,这个状态的个体是已经被治愈并且具有对该种传染病免疫能力的个体,或者已经死亡的个体,这一类个体不会再被传染,同时也失去了传染性。

疟疾的传播理论与DBSCAN算法有相似性,I状态和核心对象对应。类似于某个个体接触I状态的个体在一定概率上被转染,当一个和核心对象之间距离可达时,该点也可以划为类簇,不同的地方在于传染具备概率性而DBSCAN算法中不具有概率设定。与之类似的还有,S状态的个体和边界对象具备类似的属性。

进一步的,所述基于交叠分区的GeoHash编码命名为OverLap-GeoHash算法。整个算法的执行过程中,时间复杂度和空间复杂度最高的是DBSCAN算法,根据木桶原理,为了保证并行聚类效率,需要将数据尽量按区域等分。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都四方伟业软件股份有限公司,未经成都四方伟业软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911270066.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top