[发明专利]一种图数据计算的方法、主机以及图计算系统有效
申请号: | 201610527136.7 | 申请日: | 2016-07-06 |
公开(公告)号: | CN107590769B | 公开(公告)日: | 2021-02-09 |
发明(设计)人: | 成杰峰;李震国;刘勤 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06T1/00 | 分类号: | G06T1/00 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 王仲凯 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 计算 方法 主机 以及 系统 | ||
本发明实施例公开了一种图计算的方法,用于提高图计算的速率,节省时间。本发明实施例方法包括:第一主机获取顶点集合进行第X次迭代计算后的计算结果集合,所述顶点集合为所述第一主机进行第X+1次迭代计算时要执行更新函数的顶点的集合;所述第一主机根据所述图数据和所述计算结果集合,进行第X+1次的并发迭代计算,得到每个顶点上随机游走实例的个数变为R1/2个,所述R1/2个随机游走实例各自的当前路径长度变为2L1+1;若所述R1/2和2L1+1满足迭代完成条件,则所述第一主机完成所述图数据的计算。
技术领域
本发明涉及计算机领域,尤其涉及一种图数据计算的方法、主机以及图计算系统。
背景技术
随着收集与产生数据的能力的进步,我们进入了大数据时代,每天我们都能从各类传感器、设备和互联网中收集到大量的数据。为了寻找新的商业价值和建立新的商业模型,我们必须处理、分析、存储并理解这些大数据。随着大规模图数据分析的需要,近几年涌现出了很多基于分布式或单机的并行图计算系统,其中常见的有:大规模图分布式计算框架(Pregel)、基于内存的分布式图计算系统(GraphLab)、基于磁盘的单机图计算系统(GraphChi)等。
“图计算”是以“图论”为基础的对现实世界的一种“图”结构的抽象表达,以及在这种数据结构上的计算模式。图计算系统对所有的算法的运行都是以多轮迭代进行直到算法收敛结束。一般通过使用“以顶点想(think like a vertex)”的思路去抽象数据处理的算法,通过编写顶点程序形成图上的更新函数,其中,更新函数是由用户定义的。在现有技术中,更新函数是用户定义的可以处理一个源路径的计算。一个更新函数可以修改一个顶点以及与它相连的边上的权值。在图计算完成一个算法的多次迭代中,每次迭代就是系统完成一遍在图的每一个顶点上执行更新函数。
但在大数据分析的背景下,我们要处理的图的大小通常是大于一台计算机的内存。因此,在图计算时,要根据集群中计算节点的数目把图分成同等份数,并分配到这些计算节点的内存中,才开始计算。图计算过程中需要各主机通过网络不断彼此通信告诉对方自己内存中的计算状态才能使得整体的计算向前进行。一般采用基于随机游走(randomwalk)的图计算方法。其中,一个图包括N个节点,对图中的N个节点,我们需要独立地从每个节点出发搜索一条以该节点为源点的随机游走路径,那么对同一个图需进行N次图计算。每次随机游走都从图中每个不同的起始节点开始,每一步随机选取当前节点的一个相邻顶点前进。其中,随机游走往下一个相邻顶点前进的每一步都需要图计算的一次迭代,随即游走路径需要被采样多长,系统就处理多少步迭代完成该次采样。所以,N次采样就运行N次图计算,每次图计算对应一次采样计算,其总的计算时间就是一次分布式采样计算时间的N倍。也可以扩展现有单机系统到多个不同的主机上同时运行这N次采样,这样整体的计算时间就是一次单机采样计算时间的N/M倍,M为主机的个数。
但是,由于图计算系统要处理的图数据的N都很大,N是一个是变量,M很小,是恒量。所以,据上述分析,就算现有的图计算系统快到能一秒钟完成一次采样计算,常见的超过千万节点的图就已经需要花超过10^7(10的7次方)秒的时间,即115天。因此,怎么降低图计算的时间是一个重要的挑战。
发明内容
本发明实施例提供了一种图计算的方法、主机以及图计算系统,用于提高图计算的效率,节约时间。
本发明实施例第一方面提供一种图计算的方法,该方法应用于以磁盘为基础的图计算系统,该图计算系统包括M个主机,每个主机在本地磁盘上保存图数据,该图数据包括N个顶点,每个主机同时运行N/M个不同源的路径计算,每个顶点上当前有R1个随机游走实例,每个随机游走实例的当前路径长度为L1,该方法可包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610527136.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种通用型的模数化耐用包装结构
- 下一篇:防止损坏医药中间体的保存装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置