[发明专利]基于图索引的图数据库关键词邻近搜索方法无效

专利信息
申请号: 201110074569.9 申请日: 2011-03-28
公开(公告)号: CN102163218A 公开(公告)日: 2011-08-24
发明(设计)人: 钟鸣;刘梦赤;桑雷;汪帅 申请(专利权)人: 武汉大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 代理人: 张火春
地址: 430072 湖*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 索引 数据库 关键词 邻近 搜索 方法
【说明书】:

技术领域

发明涉及数据库关键词搜索技术领域,尤其涉及一种基于图索引的图数据库关键词邻近搜索方法。

背景技术

关键词邻近搜索是一项用于数据库内结构化及半结构化数据的关键词搜索的主流技术。不同于传统的应用于非结构数据的关键词搜索技术,如Google等搜索引擎的方法,这项技术并不是只查找包含了所有给定关键词的单个文档或对象,而是在数据库中去查找包含了所有关键词的结构体,这些结构体由一些相互间存在结构联系的对象所组成,作为一个整体可满足用户的信息需求。它既不需要用户掌握结构化的查询语言和复杂的数据库模式,又能充分发掘数据库内的数据本身所具有的结构化信息的潜在价值,并在传统关键词搜索技术失效时仍然能够为用户发现有用的信息。因此,它具有十分重要的科研与产业价值。

关键词邻近搜索方法大致可按所检索的数据库类型分为三类:关系数据库的,XML数据库的,和图数据库的。其中,关系数据库的关键词邻近搜索方法帮助用户查找包含给定关键词的关系元组通过主外键关系所组成的连接网络(Connected Network,CN),它可利用关系数据库的模式减小搜索空间,还可利用RDBMS的SQL执行引擎来做查询优化;XML数据库的关键词邻近搜索方法帮助用户查找以包含给定关键词的XML标签的最低公共祖先(Lowest Common Ancestor,LCA)为根的树,它可利用XML标签的Dewey编码来提高搜索速度;而图数据库的关键词邻近搜索方法则是用于对真正的图结构数据进行检索,它主要依靠一些图搜索算法来实现,相对于前两类方法技术还不成熟(参见文献1-4)。

面向图数据的关键词邻近搜索本质上类似于图论中的经典NP完全问题——组Steiner树(Group Steiner Tree,GST)问题,但是复杂度更高,一般采用启发式算法予以解决。现有的算法的公共思想是:先将所有包含了给定关键词的匹配节点加入到一个被称为“前线”的集合当中,然后迭代地从前线中挑选节点进行访问,每访问一个节点,就把它的所有未访问的邻居节点都加入到前线中来。如果当前访问的节点是沿从某个关键词的匹配节点出发的路径而到达,则它与该关键词相连,如果当前访问的节点与查询中所有的关键词相连,则找到一棵以它为根节点、以各个关键词的匹配节点为叶子节点的连接树,作为搜索的结果保存起来。如果这棵连接树被其它找到的连接树完全覆盖,则这棵连接树会被放弃,也就是说,只有最小连接树才会被保留。当最好的k个最小连接树被找到后,搜索停止,输出top-k答案。

为了提高面向图数据的关键词邻近搜索的速度,最近有人提出了一种基于图索引的方法:首先定义了一种无权重图的r-半径子图,即以图中某一个节点为中心,包含所有从中心出发r跳内可达的节点,及这些节点之间所有的边;找出图中所有的最大r-半径子图,即不会被其它子图完全覆盖的子图,建立关键词与子图间的倒排索引;搜索时找到所有包含了查询中全部关键词的匹配子图,为每一个匹配子图生成一个由其中所有包含了关键词的节点以及它们之间的所有路径组成的子图(称为Steiner图)作为查询结果。这种方法还是存在很多问题。首先,一个Steiner图并不是一个合理的查询答案,因为它包含了过多的信息,与最小连接树相比让用户无法准确从中识别有用的信息,另外各个Steiner图之间重复信息太多,大部分答案都没有意义。其次,还有一些技术性难题没有解决,主要包括:r-半径子图在没有大小上界限定的情况下可能会非常的大,根据我们对实际数据的调查,当子图过大时会使得整个方法都失效,查询速度反而更慢;关键词到子图的这种简单的图索引结构比较低效,因为查询处理中还需要知道包含了关键词的节点,以及节点与子图间的映射关系等信息,多次索引查询造成了磁盘I/O的次数增加,直接导致了性能下降(参见文献5)。

文献1:W.-S.Li and etc.Retrieving and organizing web pages by“information unit”.In WWW Conference Proceedings,pages 230-244,2001;

文献2:G.Bhalotia and etc.Keyword searching and browsing in databases using banks.In ICDE Conference Proceedings,pages 431-440,2002;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110074569.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top