[发明专利]一种基于并发改进的大规模图数据流式划分方法及系统有效
申请号: | 201510348875.5 | 申请日: | 2015-06-23 |
公开(公告)号: | CN104954477B | 公开(公告)日: | 2018-06-12 |
发明(设计)人: | 施展;冯丹;鲍匡迪;郭鹏飞;韩江;黄力;余静;欧阳梦云 | 申请(专利权)人: | 华中科技大学 |
主分类号: | H04L29/08 | 分类号: | H04L29/08 |
代理公司: | 华中科技大学专利中心 42201 | 代理人: | 廖盈春 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于并发改进的大规模图数据流式划分方法及系统,属于计算机存储领域。本发明包括:工作节点登记同步;代理服务器发送顶点信息;工作节点返回梯度信息;代理服务器发送最优分区信息;工作节点保存分区结果。本发明通过一次发送多个顶点及其相关信息的方法,解决了现有流式图划分方法一次网络时延处理一个顶点的问题,减少网络时延对系统的影响,提高了图划分效率。 | ||
搜索关键词: | 工作节点 代理服务器 数据流 并发 发送 计算机存储 顶点信息 分区结果 分区信息 时延处理 梯度信息 网络时延 相关信息 一次发送 一次网络 流式 改进 保存 返回 | ||
【主权项】:
一种基于并发改进的大规模图数据流式划分方法,其特征在于,包括:步骤1所有工作节点将其由IP和端口号组成的SessionId发送给代理服务器,所述代理服务器将根据收到各SessionId的先后顺序给其编号作为Id,并将编号后所有工作节点的SessionId和Id构成表发送给所有工作节点;步骤2所述代理服务器依次发送顶点信息,发送每一个顶点信息前,先将初始值为N的信号量减1,其中N为并发度,若所述信号量不为负则发送该顶点信息及其邻接顶点信息给所有工作节点,所述代理服务器持续发送顶点信息及其邻接顶点信息直到所述信号量为负时暂停发送;步骤3各工作节点接收来自所述代理服务器的顶点信息及其邻接顶点信息,根据工作节点的本地缓存中已分配的顶点信息计算贪心梯度值δg(Vi+1,S)并将其返回给所述代理服务器:![]()
其中,Vi+1表示待处理的顶点;S表示图数据在该工作节点的分区结果存储区中的顶点集;N(Vi+1)表示顶点Vi+1的所有邻接顶点的集合;k表示分区的数量;n表示图数据总的顶点数量;η表示平衡系数;步骤4所述代理服务器为每个顶点记录一个最优的贪心梯度信息,当返回的贪心梯度信息数量达到分区的数量时则认为所有的分区已处理完毕,将最优的贪心梯度信息的分区作为最优分区结果发送给各工作节点,同时将所述信号量加1,当所述信号量非负时,执行所述步骤2,所述代理服务器继续发送顶点信息,直至所有顶点信息发送完毕;所述代理服务器为每个顶点设置nodeId、count、weight三个字段,分别代表最优分区Id、已返回的贪心梯度信息数量以及最优的贪心梯度信息;所述代理服务器收到各工作节点返回的顶点的贪心梯度值后,与该顶点的weight字段进行比较,并取较大值更新作为weight字段的值;步骤5各工作节点收到最优分区信息后进行判断,若该顶点位于本分区则将顶点信息及其邻接顶点信息存储在本地,若该顶点位于其他分区,则记录一个顶点编号和分区号作为索引,将本地缓存中的顶点信息及邻接顶点信息丢弃。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510348875.5/,转载请声明来源钻瓜专利网。
- 上一篇:终端及其制成方法
- 下一篇:一种迁移缓存数据的方法及设备