[发明专利]一种面向多模式图匹配的并行加速方法有效
申请号: | 201811228936.4 | 申请日: | 2018-10-22 |
公开(公告)号: | CN109614520B | 公开(公告)日: | 2021-06-04 |
发明(设计)人: | 于静;郭晶晶;刘小梅;刘燕兵;曹聪;谭建龙;郭莉 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F16/901 | 分类号: | G06F16/901 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 司立彬 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 模式 匹配 并行 加速 方法 | ||
本发明公开了一种面向多模式图匹配的并行加速方法。本方法为:1)生成目标领域的模式图集的多模式图索引;2)对所述多模式图索引采用逐层分组策略,即对所述多模式图索引中每一层出现的模式图进行评估,得到该层中每个模式图的匹配代价,然后根据匹配代价对该层的模式图进行分组;3)对不同分组分别分配一线程同时进行匹配计算。本发明通过采用PatternTree索引构建算法挖掘模式图间存在的结构相关性,对于结构相关性较弱的模式图设计并行匹配策略进一步提升匹配性能。
技术领域
本发明提出一种面向多模式图匹配的并行加速方法,属于计算机软件技术领域。
背景技术
在大数据时代,数据规模不断扩大,数据结构日益复杂,数据间的关联更加紧密,这些特点给大数据分析带来巨大挑战。图作为一种广泛应用的数据结构,可以有效刻画紧密关联的数据,众多领域的实际问题都可以转化为图上的计算问题,例如图像分析、生物数据分析、社交网络分析、隐私保护等。图模式匹配技术(Graph Pattern MatchingTechnology)通过对大规模图数据上关联关系的高效查询,是解决上述复杂图数据分析和挖掘问题的重要手段,它已成为近年来学术界和工业界广泛关注的问题之一。
子图同构(Subgraph Isomorphism)是图模式匹配的一类基础问题,对于给定的数据图和模式图,子图同构算法实现在数据图中查找与模式图的结构和属性完全一致的所有子图。该问题属于NP完全问题,众多启发式算法通过优化匹配顺序、剪枝策略不断提高匹配性能。近年来,随着数据规模的扩大和硬件水平的提高,利用并行计算、GPU等方式优化匹配性能的技术方兴未艾。而现有算法主要针对单模式图匹配进行性能提升,将待匹配的模式图看作独立的目标实现匹配优化和性能评估。
然而在实际应用中,存在许多应用场景需要批量处理模式图,例如,在网络安全领域中,网络可以按照以IP地址为结点,通信关系为边,转换为图数据结构,将网络中的各类攻击事件抽象为模式图,通过在通信网络中实时匹配这些模式图实现对网络攻击事件的监测;在社交网络分析中,以用户为结点,用户间的好友关系、粉丝关系为边构建社交关系网络,关注的社团和人物可以用其所在的关系子网络表示,通过图模式匹配实现社团推荐、人物推荐等任务;在生物科学领域中,蛋白质结构本身就是一种图结构,对于各类未知特性的蛋白质,研究者可以在已知功能特性的数据库中搜索与其相似的结构,来推测其功能和特性。在上述应用中,需要同时匹配多个模式图,这些模式图间通常存在重复结构,而现有图模式匹配算法主要针对单一模式图进行处理,在处理批量模式图匹配问题上,采用串行匹配策略,忽略了模式图之间的结构相关性,造成了匹配过程中的大量冗余计算。
现有的图模式匹配加速技术主要包括三个方面:基于数据图索引的匹配加速技术、基于数据图并行的匹配加速技术、基于GPU的匹配加速技术。基于数据图索引的匹配加速技术主要通过挖掘数据图中有辨别力的特征建立倒排索引,在匹配过程中首先通过索引快速缩小搜索空间,再对小规模的备选集合进行精确匹配,从而达到加速匹配的目的。基于数据图并行的匹配加速技术,通过将数据图划分为若干子图,采用多个计算节点对每部分数据子图进行匹配计算,最后合并每个子图的匹配结果,这类算法主要面临两个技术挑战:一是如何均衡划分数据图,二是如何对匹配结果进行高效合并。基于GPU的匹配加速技术,充分发挥GPU的并行处理能力,将匹配计算量较大搜索剪枝部分由CPU迁移到GPU以提升整体匹配性能。
综上所述,目前的图匹配加速技术主要针对单一模式图匹配问题从构建数据图索引、划分数据图进行分布式计算、借助高性能GPU完成密集计算等角度实现匹配加速。然而,在处理多个模式图时,现有算法仍将每个模式图视为独立个体采用串行策略进行匹配,其中存在不同程度的冗余计算。针对单个模式图串行匹配存在冗余计算的问题,多模式图匹配技术应运而生,该类技术的核心思想是基于模式图间存在的结构关联,挖掘存在于模式图中的重复结构(子结构),从而定义基于重复结构(子结构)的最优匹配策略,通过降低对相同结构的重复匹配提升匹配性能。但是现存多模式图匹配技术还不够成熟,对于结构相关性较弱的模式图没有高效的并行处理方式,多模式图匹配技术的性能还有待提高。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811228936.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据导入方法和数据导入装置
- 下一篇:一种高效的隐私保护子图查询处理方法