[发明专利]一种分布式的子图枚举方法有效
申请号: | 201710295982.5 | 申请日: | 2017-04-28 |
公开(公告)号: | CN106991195B | 公开(公告)日: | 2020-08-11 |
发明(设计)人: | 顾荣;黄宜华;王肇康;冯轩 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/27 |
代理公司: | 苏州威世朋知识产权代理事务所(普通合伙) 32235 | 代理人: | 杨林洁 |
地址: | 210093 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分布式 枚举 方法 | ||
本发明公开了一种分布式的子图枚举方法,包括以下步骤:第一步,根据输入的查询图生成一棵查询树,并将查询树分发到各个计算节点;第二步,根据查询树在输入的数据图上查询出部分匹配结果;第三步,根据部分匹配结果和查询树,完成子图匹配任务,生成匹配结果。其中第二步查询部分匹配结果在分布式图计算框架中完成,该步骤又分为以下两个子步骤:第一步,接收邻居顶点发送的部分匹配结果并进行连接操作生成新的部分匹配结果;第二步,将新的部分匹配结果发送给邻居节点。本发明在分布式环境中高效地完成了子图枚举计算任务,改善了现有的分布式子图枚举计算方法网络开销过大,性能较低等问题。
技术领域
本发明涉及子图枚举问题与并行计算技术领域,尤其涉及基于Pregel编程框架的分布式子图枚举方法。
背景技术
子图枚举问题是计算机图数据结构上的一类基本问题。子图枚举为以子图为处理单元的图分析算法提供了分析基础,在生物信息学、社交网络分析以及描述社会网络演变等诸多领域都有着广泛的应用。子图枚举问题在计算机领域是一个困难的问题,计算的复杂度非常高。一方面,前人从单机时代已经对这个问题进行了大量的研究,单机子图枚举算法大部分是基于深度优先搜索的方法来实现。但是由于子图枚举问题的复杂度过高,单机的方法经常使用剪枝以及索引等方法来降低计算的复杂度。但是,这些方法并没有从根本上解决子图枚举算法复杂度过高的问题。另一方面,通用集群蓬勃发展。它们有着搭建成本低,易于使用和维护等优点,并且随着以Apache Spark为代表的数据并行计算框架和以HDFS为代表的分布式存储系统的发展,通用集群具有了更加良好的容错性,计算和存储能力也可以方便地水平扩展。因此,基于各种分布式计算框架的分布式子图枚举计算方法应运而生。这些方法利用集群这种分布式的计算平台来解决大规模的子图枚举问题。
分布式子图枚举问题,前人已经做了非常多的研究。随着大数据基本技术的不断发展,基于不同的大数据引擎的分布式子图枚举算法应运而生。在以MapReduce为编程框架的Hadoop大数据计算平台上,前人提出了TwinTwigJoin方法来解决分布式的子图枚举计算问题。在以Pregel为编程框架的Giraph大数据计算平台上,前人提出了PSgL方法来解决分布式的子图枚举。目前性能最好的算法是基于Hadoop平台的SEED算法,但是该方法需要大量的预处理计算来生成索引,对于数据更新频繁的互联网应用来说,并不便于使用。
目前公认的无须索引的、性能最好的分布式子图枚举方法是TwinTwigJoin。这个方法将查询图分解成一棵左深二叉查询树。根据这棵查询树依次从树的底层往上逐渐生成部分匹配结果,直到处理到这棵查询树的根节点,即得到了所有的匹配结果。该方法存在以下几个问题:一是中间产生的部分匹配结果过大,这些结果都需要通过网络发送到其他机器上,这样会导致大量的网络通信开销;二是迭代的次数过多,将查询图转成左深二叉树,将导致查询树的高度过高,中间结果传输次数过多,造成严重的性能问题。
发明内容
发明目的:针对上述现有技术存在的问题和不足,本发明的目的是提供一种在分布式的环境下不需要使用索引的子图枚举方法,解决了现有方法网络传输量过高,网络传输次数过多,需要预处理以及性能较低的问题。
技术方案:为实现上述发明目的,本发明采用的技术方案为一种子图枚举的分布式并行方法,包括以下步骤:
(1)由用户输入两个输入数据:查询图和数据图;
(2)根据输入的查询图确定查询图上的每个顶点的权重;
(3)根据查询图和每个顶点的权重信息,生成一棵查询树;
(4)先将数据图以邻接表的格式存储到分布式数据库中,然后以查询树中高度为2的顶点作为初始查询点;
(5)在第一轮迭代开始之前,将数据图中的每个顶点设为活跃状态;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710295982.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:智能风格推荐系统
- 下一篇:一种通用的数据追溯方法及系统