[发明专利]一种图数据分割的方法及装置在审
申请号: | 201410187377.2 | 申请日: | 2014-05-05 |
公开(公告)号: | CN105096297A | 公开(公告)日: | 2015-11-25 |
发明(设计)人: | 罗圣美;曲文武;刘丽霞 | 申请(专利权)人: | 中兴通讯股份有限公司 |
主分类号: | G06T7/00 | 分类号: | G06T7/00 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 田红娟;龙洪 |
地址: | 518057 广东省深圳市南山*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 分割 方法 装置 | ||
技术领域
本发明涉及云计算技术和图数据分析技术领域,特别是涉及一种图数据分割的方法及装置。
背景技术
BSP(BulkSynchronousParallel,整体同步并行模型),是一种并行算法的设计模型。在该模型中,将算法分为若干个超步(superstep),每个超步中分为三个过程,即本地计算、相互通信、阶段同步。BSP并行模型适合进行迭代次数高的计算。图数据分割,图数据即采用图结构存储的数据。图结构是计算机科学中最常用的一类抽象数据结构,由有限个顶点和连接顶点之间的边组成,具有比线性表结构和树结构更一般性的表示能力。
由于现实场景的应用多用图进行描述,随着信息的增长,图数据达到了海量规模。由于图数据本身固有的连通性和图计算的强耦合性特点,为了实现高效的并行处理,需要通过解耦等手段将一个逻辑上完整的大图分割成若干部分,分别放置到分布式存储系统的各个工作节点上,然后进行并行的分布式处理。
现有的图数据分割方案主要有如下几类方法:启发式方法,以Kernighan-Lin算法为代表。该算法中首先将图数据分成A、B两个集合,然后分别计算A集合中的每一个顶点与B集合中每一个顶点交换后对集合权值的影响,每次交换对集合权值影响最大的两个顶点,直到达到结束条件。谱分割方法,该算法通过计算图的拉普拉斯矩阵的特征向量,提取前k个特征值和它们对应的特征向量,获得每一个顶点在低维空间的表示,然后进行k-means聚类,获得图的划分。从以上技术方案可以看出,在现有的图数据分割方案中,存在以下缺点:
计算时间复杂度较高:如Kemighan-Lin算法,由于需要对两个集合中的顶点分别进行比较,计算其交换后对集合的权值影响,所以其时间复杂度为O(n3)。而且,在大数据分割应用中,需要将数据分为多份,对于Kemighan-Lin算法就需要对第一步的两个分割结果多次运行算法,其时间消耗更多。谱分析方法需要求解n阶方阵的特征值分解问题,其时间复杂度为O(n3),对于大规模图数据构成的矩阵计算复杂。
计算空间复杂度较高:如谱分析方法,需要对图数据中顶点构建邻接矩阵,然后进行拉普拉斯分解,再进行分割计算。图的邻接矩阵规模为n×n,其中n为图中顶点的数目。由于大图数据中顶点个数很多,该矩阵也相当庞大,不利于计算和缓存。
难以进行并行化:由于算法本身设计时没有进行并行化设计,所以在将其并行化以提高效率时会遇到问题。如Kemighan-Lin算法中一次只交换一对顶点,谱分析方法中的如何进行大规模矩阵并行分解。
发明内容
本发明要解决的技术问题是提供一种图数据分割的方法及装置,以克服现有图数据分割技术中存在的时间复杂度和空间复杂度较高问题和难以并行化的缺陷。
为了解决上述技术问题,本发明提供了一种图数据分割的方法,包括:
通过并行的标签传递算法将原始图数据转换为局部密集的带权超图;
通过划分算法逐次将所述带权超图均衡划分为带权超图子图;
将所述带权超图子图还原为原始图对应的数据。
进一步地,上述方法还具有下面特点:所述通过并行的标签传递算法将原始图数据转换为局部密集的带权超图,包括:
通过并行的标签传递算法将原始图数据中具有同样标签的顶点聚合成一个超点,所述超点的权值为该超点所包含的顶点个数;
所述超点之间的连边为超边,所述超边的权值由原始图中的边决定;
由所述超点和所述超边构所述带权超图。
进一步地,上述方法还具有下面特点:所述超边的权值由原始图中的边决定,包括:
如原始图中的边的两个端点在所述带权超图中属于不同的超点,则该两个超点之间存在一条超边,该超边的权值增加1;
如原始图中的边的两个端点在所述带权超图中属于同一下超点,则不产生超边。
进一步地,上述方法还具有下面特点:
所述通过划分算法逐次将所述带权超图均衡划分为带权超图子图,包括:
以所述带权超图中的超点为起点依次计算最小化局部切分率值,
根据所述最小化局部切分率值将所述带权超图划分为指定块数的带权超图子图。
为了解决上述问题,本发明还提供了一种图数据分割的装置,其中,包括:
转换模块,用于通过并行的标签传递算法将原始图数据转换为局部密集的带权超图;
划分模块,用于通过划分算法逐次将所述带权超图均衡划分为带权超图子图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中兴通讯股份有限公司,未经中兴通讯股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410187377.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:显示器智能防近视控制系统及其控制方法
- 下一篇:一种代驾服务接单的方法及装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置