[发明专利]分布式图计算系统和分布式图计算方法在审
申请号: | 201910924175.4 | 申请日: | 2019-09-27 |
公开(公告)号: | CN110704693A | 公开(公告)日: | 2020-01-17 |
发明(设计)人: | 武永卫;陈康;姜进磊;李雪;章明星 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F16/901 | 分类号: | G06F16/901 |
代理公司: | 11481 北京睿邦知识产权代理事务所(普通合伙) | 代理人: | 徐丁峰 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 计算结点 迭代 图计算 数据库 读取 迭代结束 计算步骤 计算效率 算法收敛 有效减少 不相交 初始化 计算机 轮数 重构 删除 收敛 判定 存储 返回 | ||
分布式图计算系统和方法,系统包括多个计算机和数据库,每台计算机上具有一个或多个计算结点,首先进行初始化,各个计算结点分别从数据库中读取不相交的原图的一部分边;主体计算流程,采用以子图为中心的迭代化计算方法,同时加入图缩减和重新划分过程以加速收敛,其中每轮迭代包含以下步骤:重新划分步骤,在每轮迭代的开始,首先对当前计算的图进行重新划分;本地计算步骤;缩减步骤,每个计算结点本地计算完成后,删除被判定无用的部分点/边,对原图进行重构;判断剩下的所有边是否能够存储在单个计算结点,为是的情况下,迭代结束,否则返回到重新划分步骤。本发明图计算方技术可以有效减少算法收敛所需的迭代轮数,提高计算效率。
技术领域
本发明总体地分布式计算技术领域,特别涉及一种分布式图计算方法及系统。
背景技术
随着以社交网络为代表的图数据规模高速增长,如何有效处理这类大规模数据仍然存在着很多挑战。Google开发的图计算系统Pregel首次提出了“think like a vertex”的思想,即以点为中心(vertex-centric)的计算方法,之后的大部分分布式图计算系统都延续了这一思想,例如Giraph、GraphLab、PowerGraph、GraphX、GPS等等。不同于本地内存环境下的串行算法,在以点为中心的计算方法中,所有的点从其入边的邻点获取数据,执行用户自定义的函数对自己的状态进行更新,然后将自己的更新状态通过消息发给其出边的邻点。这种以点为中心的计算方法编程简单、易于扩展,因而被广泛使用。然而,由于在执行中只能访问或更新直接邻居,导致每次信息只能传递一跳,因而算法收敛速度慢,尤其是在大直径图上计算效率极低。
为了解决以点为中心的计算方法存在的问题,一些系统(Giraph++、GoFFish、Blogel等)采用了以子图为中心的计算方法。在这种计算方法下,分布式集群中的每一个计算结点保存的数据构成子图,在用户定义的函数中,可以对一个子图进行任意计算,而不是一个特定的点,因此同属于一个子图内的点或边可以在一次迭代内完成信息同步。这一做法可以大大提高信息传递的速度,从而加快算法收敛,提高计算效率。然而,如果采用固定的图划分就不能充分发挥这一优点,如果图的划分效果不佳,依然会存在大直径图上算法收敛速度慢的问题。
发明内容
因此,需要对以子图为中心的计算方法进行优化,提出一种支持对图重新划分的计算方法,并尽可能降低重新划分所带来的额外开销,从而解决现有方法存在的收敛速度慢的问题,进一步提高计算效率。
(一)所要解决的技术问题
本发明的目的在于解决传统图计算方法在某些情况下收敛速度慢、计算效率低、计算资源浪费严重的问题,提供一个高可用、效率高、可扩展的大规模分布式图计算系统。
(二)技术方案
为了解决上述技术问题,本发明提出了一种基于图缩减和重新划分的图计算方法,并实现了一个新的分布式图计算系统ReGraph。
根据本发明的一个方面,提供了一种分布式图计算系统,包括多个计算机和数据库,每台计算机上具有一个或多个计算结点,所述分布式图计算系统如下操作:在进行图算法的计算之前,首先进行初始化,各个计算结点分别从数据库中读取不相交的原图的一部分边,执行按边划分的划分方法;主体计算流程,采用以子图为中心的迭代化计算方法,同时加入图缩减和重新划分过程以加速收敛,其中每轮迭代包含以下步骤:重新划分步骤,在每轮迭代的开始,首先对当前计算的图进行重新划分,要求每个计算结点存储的边数不得少于一个用户定义的整数参数T,本地计算步骤,重新划分完成后,每个计算结点对其所存储的子图进行计算,缩减步骤,每个计算结点本地计算完成后,判断部分点/边的信息是否对后续的计算过程无用,删除被判定无用的部分点/边,对原图进行重构;判断剩下的所有边是否能够存储在单个计算结点,在判断结果为是的情况下,上述的分布式计算流程结束,否则返回到重新划分步骤。
可选的,所述分布式图计算系统其中在按边划分时,在整个分布式图计算系统中,每条边被保存且只被保存一次。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910924175.4/2.html,转载请声明来源钻瓜专利网。