[发明专利]一种应用于大规模非规则结构数据的图搜索方法有效

专利信息
申请号: 201510872650.X 申请日: 2015-11-27
公开(公告)号: CN105335524B 公开(公告)日: 2019-09-24
发明(设计)人: 刘智勇;王晶晶;乔红;杨旭;苏建华 申请(专利权)人: 中国科学院自动化研究所
主分类号: G06F16/58 分类号: G06F16/58
代理公司: 北京瀚仁知识产权代理事务所(普通合伙) 11482 代理人: 宋宝库
地址: 100080 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 应用于 大规模 规则 结构 数据 搜索 算法
【说明书】:

发明提出了一种应用于大规模非规则结构数据的图搜索方法,包括数据预处理方法和查询执行方法,其中数据预处理方法为:将非规则结构数据进行格式统一,为每个图的原图点构造一近邻标签向量表,构造具有属性点的扩充图;查询执行方法为:在原图数据点中利用一近邻标签筛选与关键点对应的候选匹配点,计算候选匹配点的匹配度并选择局部区域的中心点,在中心点周围划分出局部区域并查询子图和局部图的近似图匹配。该算法在保证搜索准确性的同时,大幅度降低运算复杂度,可以实现可行且有效的大规模非规则结构数据的图搜索。

技术领域

本发明属于图数据管理、图数据挖掘领域,涉及一种应用于大规模非规则结构数据的图搜索方法。

背景技术

图模型是最常见的结构模型之一,由自然形成或人工构造产生,广泛应用于各类关系的描述。其中,点通常用来代表实体,如分子、个人、电子账户等;边通常用来描述两个实体间的具体关系,如分子键、通讯往来等。

社会计算、生物信息学等应用中存在大量非规则结构数据的处理需求,基于图模型的挖掘算法逐步受到人们的关注。其中,一种点用离散化标签标识属性、边用权重值表示点联系紧密程度的非规则结构数据,在社交网络分析、知识发现等领域具有广泛应用,图搜索是实际应用中一项极为重要的需求。例如,给定一个社交网络图,若想了解某种社交子结构存在的情况,可以将此种社交子结构表示为查询子图,在给定的大型社交网络图中找到查询子图的匹配。又例如,生物网络的图模型通常由上万个点和百万条边组成,图搜索可以确定某个分子结构是否出现于搜索的生物网络中,生物学家可以通过图搜索来减少蛋白质结构匹配的实验代价。

对于大规模非规则结构数据的图搜索方法,传统的图数据库信息检索方法可能返回大量查询结果,且查询结果不具有代表性,这是因为没有考虑点的影响力差异;现有方法大多利用索引(Index)结构剪枝,采用回溯算法的基本框架,返回精确匹配结果,这些方法复杂度较高,且只能返回完全与查询子图匹配的图搜索结果,但无法返回与查询子图相似的结果;此外,由于子图匹配本身是一个NP-hard问题,复杂度较高,直接使用图匹配的经典算法无法解决大规模非规则结构数据的图搜索问题。可见传统的图搜索方法已经无法满足日益增长的大规模非规则结构数据的处理需求。

发明内容

为解决现有图搜索方法的复杂度高和效率不能满足需求的问题,本发明提出了一种应用于大规模非规则结构数据的图搜索方法,在保证精度的条件下,降低了算法的复杂度,提高了图搜索的效率。

本发明提出的一种应用于大规模非规则结构数据的图搜索方法,包括数据预处理方法和查询执行方法;

数据预处理方法包括如下步骤:

步骤S11,将非规则结构数据统一为一种图的数据格式作为原图;统一数据格式后的每个图中的点为原图点;

步骤S12,为每个图的原图点构造一近邻标签向量表;

所述为每个图的原图点构造一近邻标签向量表的方法为:依据原图的m个不同的标签,为每个原图点构造一个m位的一近邻标签向量,若原图点存在标签为label_i的邻接点,则该原图点一近邻标签向量中对应的第i位取值为1,否则该位取值为0;

步骤S13,在统一数据格式后的每个图中加入新的点作为属性点,并添加对应的边,形成具有属性点的扩充图;

步骤S14,在扩充图上,使用重启动随机游走算法,以每个属性点为起点,计算属性点到每个原图点的概率。

查询执行方法包括如下步骤:

步骤S21,确定查询子图的关键性节点作为关键点,并在原图点中利用一近邻标签向量表筛选与关键点对应的点作为候选匹配点;

步骤22,计算候选匹配点的匹配度,并根据匹配度大小选择局部区域的中心点;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510872650.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top