[发明专利]一种基于顶点切割与社区聚集的大规模图划分方法有效
申请号: | 201310686371.5 | 申请日: | 2013-12-16 |
公开(公告)号: | CN103699606A | 公开(公告)日: | 2014-04-02 |
发明(设计)人: | 谢夏;金海;吴延赞;柯西江 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 华中科技大学专利中心 42201 | 代理人: | 朱仁玲 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 顶点 切割 社区 聚集 大规模 划分 方法 | ||
技术领域
本发明属于计算机科学技术领域,更具体地,涉及一种基于顶点切割与社区聚集的大规模图划分方法。
背景技术
随着计算机技术的发展,Web2.0的广泛应用,互联网中的数据量正在变得越来越庞大,对这些数据的处理的挑战也越来越多,其中一个就是海量图数据的处理(图计算),比如对海量网页数据进行PageRank计算,社交网络中的社交关系分析,网络文献关系分析等等,由于图计算的主要特点是需要多次迭代,计算单元之间需要相互通信,因此传统的全量式计算框架MapReduce并不适合做图计算,于是出现一批专用的大规模图计算框架如CMU的GraphLab,UC Berkeley的Spark,Google的Pregel,Apache的Hama,微软的Trinity等。
在分布式环境下,图计算处理框架中的图划分算法直接影响框架的处理效率,现有的框架均采用简单的Hash算法,虽然简单快捷但是只能满足负载均衡,而传统的MGP(Multilevel Graph Partition)划分方案对自然图的处理性能不足,因为它无法顾及自然图的Power-Law分布特性,因此划分效率也不高,在迭代时节点的通信量上往往产生瓶颈,很大程度上影响任务的完成时间,进而影响到整体平台的计算性能和服务质量。
当然,随着研究的深入,也有一些新兴的方案涌现,比如基于流式的解决方案,将图的加载抽象成增量的流式数据,利用一些简单的启发式划分算法,充分考虑图划分中的最小边割和顶点均衡实现不同的算法,但是无法解决Power-Law图划分。也有将图划分结果的生成当做二叉树的生成,并将处理顶点任务分配与图划分共同结合起来,提出一种在云环境下分布式M/S结构的图划分方案,也无法解决Power-Law图划分。还有基于社区聚类中的标签传播来指导图划分,迭代地对各个计算顶点进行标签计算直到标签值不再变化,然后再按传统的MGP算法进行划分,亦无法解决Power-Law图划分。还有一种基于顶点切割的方式解决自然图划分中的通信开销问题,它通过图的概率密度分布函数确定顶点切割最大期望值,然后用其做指导,提出相应的贪心启发式划分算法,但是由于需要Power-Law的分布函数做指导,而该分布函数的参数确定本身就是一个难题。
发明内容
针对现有技术的缺陷,本发明的目的在于提供一种基于顶点切割与社区聚集的大规模图划分方法,其能够应用于包括网页数据和网络文献关系在内的大规模迭代图计算,从自然图本身的统计特性出发进行分析,结合社交网络领域的均衡化标签传播算法与经典的KL/FM划分算法,使得对于大规模迭代图计算应用,满足计算负载均衡的同时,极大地减少迭代时计算节点之间的通信量。
为实现上述目的,本发明提供了一种基于顶点切割与社区聚集的大规模图划分方法,应用于包括网页数据和网络文献关系在内的大规模迭代图计算,包括以下步骤:
(1)初始化划分集群,包括设定集群软硬件的参数,启动集群,划分算法代码部署;
(2)定时检测划分节点,利用定时间隔的心跳检测,查看各个计算节点是否在线,确保集群运行正常,并将待划分图发送到集群中;
(3)统计待划分图的顶点度数分布,得到该待划分图的分布特性,即其Power-Law分布参数,根据该分布参数得到具体的顶点切割方案;
(4)根据切割方案进行顶点切割,得到切割图;
(5)获取切割完成后的图;
(6)对切割之后的图迭代地进行标签传播处理;
(7)获取标签传播图,并进行MGP划分,以巩固顶点切割以及社区聚类的效率;
(8)重复步骤(3)至步骤(7)直到迭代次数达到预定次数。
与现有技术相比,本发明具有以下的有益效果:
(1)高效性:代替传统的边切割方案,通过顶点切割即镜像的方式进行分配,应用于大规模迭代图应用时,各个迭代步之间如果要获取顶点的值,只需要跟镜像通信即可,如果要修改顶点的值,则可通过修改顶点的值,然后传递到镜像即可,总而言之,通过顶点切割方式,无需像传统边切割方案那样在各个节点之间进行通信,大大地减少了网络通信量,而网络通信量是影响迭代计算任务吞吐率的最大因素,因而顶点切割方式能够很大程度上提高迭代图计算的任务吞吐率。同时,因为结合图本身的社区特性,通过标签传播的方式寻找到各个社区,然后进行巩固,能够从图本身特性上也即全局特性上进行考虑,从整体结构上把握划分,进一步地降低网络通信量。通过这三步,本发明很好地解决了迭代图计算应用之前图划分的效率问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310686371.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:纺织用缝纫装置
- 下一篇:CKD/SKD清单自动生成方法