[发明专利]一种图相似性搜索方法、装置及计算机存储介质在审
申请号: | 202310907506.X | 申请日: | 2023-07-24 |
公开(公告)号: | CN116628286A | 公开(公告)日: | 2023-08-22 |
发明(设计)人: | 郑朝晖;王健翔;邱珍 | 申请(专利权)人: | 苏州海加网络科技股份有限公司 |
主分类号: | G06F16/903 | 分类号: | G06F16/903;G06F16/901;G06F18/22 |
代理公司: | 北京众元弘策知识产权代理事务所(普通合伙) 11462 | 代理人: | 刘东升 |
地址: | 215000 江苏省苏州市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 相似性 搜索 方法 装置 计算机 存储 介质 | ||
本发明涉及一种图相似性搜索方法、装置及计算机存储介质。包括步骤:提供包括多个数据图的数据图集合及查询图;确定编辑距离阈值,确定数据图与查询图间的顶点数和边数的差值,从数据图集合中过滤掉差值大于编辑距离阈值的数据图,以获得预候选数据图集合;基于扩展概率将查询图分区,以获得查询图分区集合,查询图分区集合中非重叠分区;确定查询图与预候选数据图集合所包括的数据图间的不匹配分区数,从预候选数据图集合中过滤掉子区域数大于编辑距离阈值的数据图,获得候选数据图集合;构建多层索引;划分索引序列;压缩索引;计算数据图与查询图间的图编辑距离,当此距离小于等于编辑距离阈值时,将查询图加入结果集并返回结果集。
技术领域
本发明涉及图像搜索技术领域,尤其涉及一种图相似性搜索方法、装置及计算机存储介质。
背景技术
近年来,随着互联网技术的飞速发展,数据量呈现指数型增长,实现数据的高效存储与检索至关重要。在大数据时代,由于数据实体具有各自的特征属性且大量数据之间存在相互关联的复杂关系,通常将这些数据实体以及数据之间的关系抽象为图结构。面对大规模图数据集,图相似性搜索算法在数据分析中具有重要意义,且已被广泛应用于各个领域,如生化信息学、计算机视觉、模式识别和数据检索等。
在图数据集中,对于给定的查询图和编辑距离阈值,根据指定的图相似性度量标准检索所有编辑距离不超过编辑距离阈值的数据图的过程称为图相似性搜索。目前,评估图相似性(查询图与数据图的相似性评估)的度量标准有图编辑距离、最大公共子图和图对齐等。其中,图编辑距离(Graph Edit Distance,GED)作为最常用的度量保准,基本可以评估所有类型的图,精确计算图之间的结构差异。由于图编辑距离计算是NP(Non-deterministic Polynomial)-Hard问题,因此现有方法大多采用“过滤-验证”的思路求解图相似性搜索问题,其性能主要取决于候选集大小、过滤得到候选集的代价以及图编辑距离的计算开销。在过滤阶段,通常采用索引构建算法和上下界剪枝策略来快速过滤不满足阈值约束的数据图,得到候选集。但过于松弛的过滤下界导致候选集过大,设计较优的索引结构会缓解这一问题,但会导致索引空间占用较大,然而大部分研究中没有考虑到这一性能瓶颈。在验证阶段,要分别精确计算查询图与候选集中数据图的图编辑距离,该过程需要较大的计算开销。如果过滤阶段能够得到精简的候选集,则会大大降低验证阶段的时间消耗。
发明内容
本发明的目的在于提供一种图相似性搜索方法、装置及计算机存储介质,以解决现有技术存在的搜索结果不完整、候选集较大、索引空间占用较大以及计算开销大等问题。
第一方面,本发明提供一种图相似性搜索方法,包括以下步骤:
提供查询图和包括多个数据图的数据图集合;
确定编辑距离阈值,确定每一数据图与查询图之间的顶点数和边数的差值,从数据图集合中过滤掉顶点数和边数的差值大于编辑距离阈值的数据图,得到预候选数据图集合;
基于扩展概率对查询图进行分区以获得查询图分区集合;查询图分区集合中包括若干个非重叠分区;非重叠分区的数量为编辑距离阈值与下界参数值的和;
确定查询图与预候选数据图集合中每一数据图之间的不匹配分区数,从预候选数据图集合中过滤掉不匹配分区数大于编辑距离阈值的数据图,以获得候选数据图集合;
构建多层索引,每一层索引配置有子候选查询图集合,每一子候选查询图集合均包括多个非重叠分区,多个子候选查询图集合构成候选查询图集合;下界参数值为非重叠分区所在的索引的层数;
划分索引序列,并计算索引序列中元素相似性差值,设置索引序列的压缩阈值;
压缩索引,当元素相似性差值大于压缩阈值时,采用分区压缩方法对索引进行压缩,当元素相似性差值小于或等于压缩阈值时,采用差值压缩方法对索引进行压缩;
计算数据图与查询图之间的图编辑距离,当图编辑距离小于等于编辑距离阈值时,将查询图加入结果集并返回结果集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州海加网络科技股份有限公司,未经苏州海加网络科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310907506.X/2.html,转载请声明来源钻瓜专利网。