[发明专利]一种MapReduce框架下的空间网络对象聚类方法在审
申请号: | 201710178623.1 | 申请日: | 2017-03-23 |
公开(公告)号: | CN107545272A | 公开(公告)日: | 2018-01-05 |
发明(设计)人: | 郭黎敏;高需;丁治明;陈军成;苏醒 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京思海天达知识产权代理有限公司11203 | 代理人: | 张慧 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 mapreduce 框架 空间 网络 对象 方法 | ||
技术领域
本发明属于移动对象数据挖掘研究与应用领域,具体涉及一种MapReduce框架下的空间网络对象聚类方法。
背景技术
聚类是应用最广泛的数据挖掘方法之一,其目标是将对象划分为不同组,最大化同组对象间的相似性,而令不同组对象间差异性较大。在图像处理、数据压缩、模式分类等领域具有广泛应用。其中针对空间数据的聚类一直是研究热点之一,但现有方法大多关注欧式空间对象聚类。然而,在现实世界中,对象往往受限于空间网络(如道路网络),因此对空间网络中对象聚类更具有现实意义,可应用于交通拥塞检测、城市规划等领域,比如在智能交通系统中,通过对车辆聚类得到车辆在道路网络中的密集区域可用于标识道路中出现拥塞区域,利用本信息能够提供以最短时间等为衡量标准的路径规划和导航服务。因此,空间对象的聚类方法具有重要的研究价值与广泛的应用场景。
在空间网络对象聚类中,对象位置由网络信息描述,对象间相似性由网络中最短距离定义。与欧式空间中对象距离计算复杂度为O(1)不同,最短距离计算代价很高,如使用Dijkstra算法[1],其时间复杂度为O(|V|log|V|),其中V为网络中顶点数。这令基于欧式空间的聚类算法很难适用于空间网络对象聚类场景,如基于密度的聚类算法DBSCAN[2]和OPTICS[3]等,这些算法都依赖频繁的ε-近邻查询,它们在求解空间网络对象聚类时效率低下,并且难以定义聚类核心对象。为了解决空间网络对象ε-近邻求解代价高的问题,Yiu ML等研究人员给出了层次化聚类算法single-link[4],和基于密度的聚类算法ε-link[4],陈继东等研究人员[5]提出了基于空间网络的边的聚类算法CB-CLS和基于顶点的聚类算法NB-CLS。但是,此类算法依赖数据在空间网络的边中局部有序,难以适应大规模位置数据的聚类问题。
随着附带GPS等定位模块的移动智能终端的普及,使得即时获取位置信息成为可能,并出现了大量基于位置的服务(Foursquare、Flicker),基于位置的众包(Waze、OpenStreatMap)、基于位置的社交网络(Facebook、Twitter)等。不难看出,在此类应用中,需要管理大规模位置信息,这将导致传统的集中式聚类方法难以适应庞大的数据量。为了解决数据量增长带来的问题,研究人员已提出了分布式或并行聚类算法[6-7],但此类算法不具有良好的可扩展性;面对大数据带来的挑战,亟待研究高效率、可扩展、可伸缩的云计算环境中的空间网络对象聚类算法。
MapReduce[8]是云计算环境下广泛使用的并行编程框架,在此框架下,研究人员提出了MR-DBSCAN[9],DBSCAN-MR[10]和K-Means++[11]等聚类算法,然而,复杂空间网络下大规模对象的聚类问题没有得到有效的研究与解决,对其有待进一步的研究。
发明内容
针对复杂空间网络下大规模对象的聚类问题,本发明提出了一种MapReduce框架下的空间网络对象聚类方法,既提出了基于图生成的层次聚类框架GGHC和基于边的概略化聚类方法,给出基于代价的空间网络对象划分方法,并提出了MapReduce并行框架下的GGHC-MR,目的是为空间网络受限对象的聚类问题提供一种可行的解决方案。
为实现上述目的,本发明采用如下的技术方案:
一种MapReduce框架下的空间网络对象聚类方法包括以下步骤:
步骤1、实现基于图生成的层次聚类框架GGHC和基于边的概略化聚类方法;
步骤2、实现基于代价的空间网络对象划分方法;
步骤3、实现MapReduce并行框架下的GGHC-MR方法。
作为优选,所述步骤1空间网络对象聚类算法GGHC的实现方法包括如下:
步骤1-1、寻找任一非空边上聚类,以聚类顶点表示,并为连接性聚类顶点生成相应的汇聚-连接锚点;
步骤1-2、根据汇聚-连接锚点合并聚类,若可合并,则连接性聚类顶点间存在生成图的一条边;
步骤1-3、寻找所有生成图的连通子图,标记在同一个连通子图中的对象属于相同聚类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710178623.1/2.html,转载请声明来源钻瓜专利网。