[发明专利]基于GPU的高性能图挖掘方法及系统有效
申请号: | 202011078543.7 | 申请日: | 2020-10-10 |
公开(公告)号: | CN111984833B | 公开(公告)日: | 2023-08-01 |
发明(设计)人: | 谭光明;林志恒;张春明;段勃 | 申请(专利权)人: | 中科院计算所西部高等技术研究院 |
主分类号: | G06F16/901 | 分类号: | G06F16/901;G06F16/903 |
代理公司: | 北京海虹嘉诚知识产权代理有限公司 11129 | 代理人: | 胡博文 |
地址: | 401121 重庆市渝*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 gpu 性能 挖掘 方法 系统 | ||
本发明公开了一种基于GPU的高性能图挖掘方法及系统,本发明通过采用GPUCPU协同计算架构,可利用GPU多线程进行图挖掘运算提升搜索效率,同时利用CPU内存保存图挖掘过程中产生的大量中间子图;通过结合Grow‑Cull执行模型描述系统架构:在系统运行过程中,每次需要拷贝部分子图至GPU执行Grow操作,判断子图和顶点/边的关系,将生成的候选子图拷贝至CPU内存;为了检查候选子图的合法性,利用CPU多线程技术执行Cull操作判断候选子图,合格的子图将保存在CPU主存上,系统重复迭代这一过程。借鉴流水线的思想,迭代时CPU计算和GPU计算能够同时执行,并且数据的双向拷贝也能够同时执行,掩盖计算和传输的延迟。
技术领域
本发明涉及一种基于GPU的高性能图挖掘方法及系统。
背景技术
图数据结构能够很好的表达实体之间的关系,而传统的数据结构无法高效的表达这样关系。这样的优势使得图数据在交通网络,社交网络,人脑计划,生物基因等不同的领域发挥着至关重要的作用。随着互联网的发展,在越来越多的领域产生了大量的图数据,并且这些图数据的规模正在逐年增加。分析和处理这些海量的图数据正在变得越来越重要。另外,随着硬件的发展,计算机的算力也越来越高,出现了包括GPU,FPGA等设备来辅助CPU计算。近年来一些研究者开始利用各种各样的硬件资源提供的算力着手研究图数据分析和处理。常见的图数据分析的流程首先需要从现实世界(社交网络,生物信息,道路网络等领域)的数据抽取实体之间的关系,将关系抽象成图数据,再对图数据进行处理(常见的图数据处理包括图计算,图挖掘,图数据库存储等方式),得到处理结果。以图计算中的广度优先遍历算法(BFS)为例,BFS算法需要对图数据进行全局遍历,从根顶点出发以迭代的方式访问顶点的邻居,最后给每个顶点标记状态。在图挖掘中最大团枚举算法(MCE)目标则是挖掘出图中的所有最大团。而图数据库领域则关注图的存储和查询。不同的图处理算法的目标差异较大,所得到的结果可能是图状态的改变,满足条件的子图等。
在图计算领域,谷歌的Pregel图计算系统提出了顶点为中心(think likevertex)的编程抽象。但在设计中没有考虑图挖掘算法的特性,对于图挖掘算法而言,其处理粒度更粗,即处理对象为子图而不是顶点。因此现有的图计算模型很难直接应用到图挖掘应用上。另外,图挖掘算法很难应对中大型规模的图。这是因为在大规模的图挖掘过程中可能产生指数级的候选模式和子图,从而导致计算和中间状态存储的爆炸式增长。图计算领域有着很成熟的算法和框架,但是针对高性能的图挖掘系统却缺少合理的算法抽象,同时大部分的研究仅关注于单一的图挖掘应用优化。更重要的是,目前基于GPU的图挖掘系统缺乏研究。
影响图挖掘算法的效率的一个重要因素是并行性。尽管多核CPU已经开发了很长时间,但并发线程数仍然很有限,通常最多为16或20。并行能力有限已成为这些基于CPU的算法的瓶颈。相比之下,高端GPU具有同时执行数千个或更多线程的能力,这使其适用于涉及处理大量数据的应用程序。与CPU相比,GPU还具有很高的内存带宽。因此,为了进一步提高图挖掘算法的效率,使用GPU是一个很好的解决方案。
发明内容
本发明的目的是提供一种基于GPU的高性能图挖掘方法及系统,以解决目前图挖掘算法效率低的的问题。
为解决上述技术问题,本发明提供一种基于GPU的高性能图挖掘方法,其特征在于,包括以下步骤:
根据不同的图挖掘应用,构建相应的搜索空间;
根据用户提供的子图信息在所述搜索空间内候选出若干顶点或边,构建初始的候选子图集合;
将所述搜索空间和候选子图集合作为Grow-Cull执行模型的输入,通过Grow操作对所述候选子图集合进行扩展得到中间子图集合,然后通过Cull操作在所述中间子图集合中筛选出合格的子图得到新候选子图集合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科院计算所西部高等技术研究院,未经中科院计算所西部高等技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011078543.7/2.html,转载请声明来源钻瓜专利网。