[发明专利]一种邻域边数估计值的确定方法、装置、设备及存储介质在审
申请号: | 202111075473.4 | 申请日: | 2021-09-14 |
公开(公告)号: | CN114329081A | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 王贺雨;蒋杰;李晓森;欧阳文;肖品;陶阳宇 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/901 | 分类号: | G06F16/901;G06F16/903 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 闵晶晶 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 邻域 估计值 确定 方法 装置 设备 存储 介质 | ||
本申请公开了涉及大数据和图计算领域的邻域边数估计值确定方法,可应用于消息处理领域,具体包括:获取有向图邻接表数据,有向图邻接表数据存储于至少两个执行器上;根据有向图邻接表数据生成节点汇聚表;在第一轮次迭代中,针对于每个执行器,根据节点汇聚表对每个尾节点的一阶邻域边数进行统计,以使每个执行器分别统计得到每个尾节点的第一轮次的更新信息;通过每个执行器向参数服务器发送每个尾节点的更新信息,以使参数服务器根据每个尾节点的编号与更新信息,确定对应节点的一阶读取计数器,一阶读取计数器存储一阶邻域边数估计值。本申请还提供了装置、设备及介质。本申请可消除driver单点网络瓶颈的问题,以提升计算性能,节省计算资源。
技术领域
本申请涉及大数据处理技术领域,尤其涉及一种邻域边数估计值的确定方法、装置、设备及存储介质。
背景技术
近年来,随着互联网技术的快速发展,越来越多的对象加入到各式各样的社区网络。一个社区网络可以看做是一个图(graph),图是一种表示一系列对象之间的关系的数据结构。图中的节点(vertex)表示对象,图中的连边(edge)表示对象之间的关系。因此,通过估算邻域边数往往能够为一些特定场景提供重要的参考信息。
目前,可基于Spark平台实现利用超对数(HyperLoglog,HLL)算法来估算邻域边数的目的。其中,Spark平台是一个专为大规模数据处理而设计的快速通用的计算引擎,能够支持交互式计算以及较为复杂的算法。
然而,基于Spark平台实现的方案容易遇到驱动(driver)单点网络瓶颈,这是因为数据的存储和更新都在driver上进行,在遇到大规模数据量的情况下,单点driver的存储空间和计算能力都难以处理,导致性能受限。
发明内容
本申请实施例提供了一种邻域边数估计值的确定方法、装置、设备及存储介质。本申请引入参数服务器不仅可以实现分布式存储大规模数据,还可以支持并行获取数据和更新数据等操作,从而能够消除driver单点网络瓶颈的问题,提升计算性能,节省计算资源。
有鉴于此,本申请一方面提供一种邻域边数估计值的确定方法,包括:
获取有向图邻接表数据,其中,有向图邻接表数据表示有向图所对应的邻接表数据,有向图包括K个节点,有向图邻接表数据中的每条数据包括有向边所对应的源节点的节点编号以及尾节点的节点编号,有向图邻接表数据存储于至少两个执行器上,K为大于1的整数;
根据有向图邻接表数据生成节点汇聚表,其中,节点汇聚表包括源节点的节点编号、尾节点的节点编号集合以及边编号集合,节点编号集合包括至少一个节点编号,边编号集合包括至少一个边编号;
针对于每个执行器,根据节点汇聚表对每个尾节点的邻域边数进行统计,以使每个执行器分别统计得到每个尾节点的第一轮次的更新信息;
通过每个执行器向参数服务器发送每个尾节点的第一轮次的更新信息,以使参数服务器根据每个尾节点的第一轮次的更新信息,确定K个节点中每个节点所对应的一阶读取计数器,其中,一阶读取计数器存储一阶邻域边数估计值。
本申请另一方面提供一种邻域边数估计值确定装置,包括:
获取模块,用于获取有向图邻接表数据,其中,有向图邻接表数据表示有向图所对应的邻接表数据,有向图包括K个节点,有向图邻接表数据中的每条数据包括有向边所对应的源节点的节点编号以及尾节点的节点编号,有向图邻接表数据存储于至少两个执行器上,K为大于1的整数;
生成模块,用于根据有向图邻接表数据生成节点汇聚表,其中,节点汇聚表包括源节点的节点编号、尾节点的节点编号集合以及边编号集合,节点编号集合包括至少一个节点编号,边编号集合包括至少一个边编号;
统计模块,用于针对于每个执行器,根据节点汇聚表对每个尾节点的邻域边数进行统计,以使每个执行器分别统计得到每个尾节点的第一轮次的更新信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111075473.4/2.html,转载请声明来源钻瓜专利网。