[发明专利]图划分方法、装置及计算机可读存储介质有效
申请号: | 202011110561.9 | 申请日: | 2020-10-16 |
公开(公告)号: | CN112445940B | 公开(公告)日: | 2022-05-24 |
发明(设计)人: | 胡克坤;董刚;赵雅倩;杨宏斌;曹其春;金良 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
主分类号: | G06F16/901 | 分类号: | G06F16/901 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 刘新雷 |
地址: | 215100 江苏省苏州市吴*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 划分 方法 装置 计算机 可读 存储 介质 | ||
本申请公开了一种图划分方法、装置及计算机可读存储介质。其中,方法包括预先根据并行计算系统各计算节点的计算性能按照预设度量机制确定用于将图数据成比例分配至各计算节点的图划分规则。在进行图划分过程中,先根据图顶点数和加载线程数确定各加载线程的数据读取范围,同时调用多个加载线程以顶点为单位并行读取待划分图数据,并将各加载线程读取的图顶点数据传递给相应的划分线程;各划分线程基于当前时刻已经划分好的图数据、按照图划分规则确定相应线程内被传入的每个图顶点数据所属子图,最后基于子图与计算节点间的对应关系将各图顶点数据划分至相应计算节点,可高效、准确地将大图划分为一系列顶点数或连接边数满足任意比例关系的子图。
技术领域
本申请涉及图计算领域,特别是涉及一种图划分方法、装置及计 算机可读存储介质。
背景技术
随着物联网、移动互联网和云计算等新兴信息技术的快速发展, 以社交网络和电子商务为代表的新型应用得到广泛使用。这些应用不 断产生大规模数据,且数据元素间通常有复杂关联关系,这些大规模 且具有关联关系的数据可用图进行建模,称这样的数据为图大数据, 简称大图。例如,截至2018年6月,全球最大的社交平台Facebook 拥有20亿用户和1万亿个好友关系;最大的Web链接图公开数据集 Page中包含35亿个网页和1280亿个超链接。这些大图蕴含巨大价值, 单机因性能有限,难以胜任价值挖掘任务,借助云计算、机群等并行 计算系统开展并行处理是当前主要解决方案。其中,图划分是大图并 行处理的首要步骤。
图划分,简单来说,就是按照某种策略将大图划分为若干个“大 小”满足一定约束条件的子图。设图Gi=(Vi,Ei)(1≤i≤k)是图G=(V, E)的子图,V和E分别为图的顶点和连接边的集合,Vi和Ei分别为子 图Gi的顶点和连接边的集合,πk={G1,G2,…,Gk}为图G的一个k 路划分,当且仅当j∈[1,k]且i≠j,均有: Ei∩Ej={eij|π(vi)=i,π(vj)=j,i≠j};其中,π(vi)表示划分后顶 点vi所属的子图编号。划分后各子图顶点数是否均衡、子图间割边数 多少对后期图大数据处理阶段的效率有着至关重要的影响:顶点数越 均衡、割边数越少,在一定程度上意味着映射到各计算节点的负载越 均衡、节点间通信代价越低、处理效率越高;反之,则处理效率越低。
图划分问题就是要找到一个均衡性最好,同时割边数最少的划 分。该问题是经典的NP难问题,相关技术中往往采用启发式方法, 如可采用流式划分方法,可在图大数据由大容量磁盘阵列加载至分布 式图计算系统的过程中完成划分,具有单趟、轻便和不依赖图全局信 息等特点。该方法流程如图1所示:左侧是存储在大规模存储阵列上 待划分的大图G=(V,E);中间的加载器以顶点为单位读取数据并传递 给划分器;划分器根据一定规则决定每个顶点应的“流向”,也即将其 分配至哪个子图上;最后当数据加载完毕时,G被划分为k个子图, 每个子图分配到由k个计算节点通过高速互连网络组成的并行计算系 统中的一个节点。不妨设τ时刻G的k路划分,其中表示τ时刻子图Gi的状态。τ+1时刻,划分器对由加载器新读取的顶 点vg,基于当前已积累的“划分决策信息”即此时的划分按照某 种启发式规则,决定vg最终应该“流”向哪个子图。初始时刻即τ=0,当所有顶点加载完毕即τ=|V|时,划分结束, 为最终划分结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011110561.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种再生塑料混合设备结构
- 下一篇:应用于线路板的刷漆塞孔同步系统