[发明专利]利用索引来搜索结构化文档的系统和方法有效
申请号: | 200810095185.3 | 申请日: | 2008-03-20 |
公开(公告)号: | CN101271474A | 公开(公告)日: | 2008-09-24 |
发明(设计)人: | 酒井美由纪;松井浩二;中西基起 | 申请(专利权)人: | 株式会社东芝;东芝解决方案株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市中咨律师事务所 | 代理人: | 杨晓光;于静 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 索引 搜索 结构 文档 系统 方法 | ||
技术领域
本发明涉及利用索引对存储在数据库中的结构化文档进行搜索的系统和方法,更特别地,涉及适合如下情况的结构化文档搜索系统和方法,其中根据一搜索条件来指定覆盖多个节点值的值搜索以及对于为所述多个节点所共有的一个相关节点的搜索。
背景技术
把一具有逻辑结构的文档称为一结构化文档。在一结构化文档中,所述文档的逻辑结构由写在所述文档中的标签指示。利用所述标签表示其逻辑结构的结构化文档适合在计算机上处理。
扩展标记语言(XML)是广泛使用的利用标签来描述数据的手段。XML的特点是利用有意义标签的层次数据和结构的自由扩展。由于应用XML的技术使这些特征很好地使用,被称为XML数据库(XMLDB)的数据库被人们所熟知。所述XML数据库由一称为XML数据库管理系统(XMLDBMS)的数据库管理系统所控制。所述XML数据库提供存储XML文档和搜索一XML文档(在所述XML文档中指定的结构)的功能。
利用XML书写的所述XML文档被认为是结构化文档的代表。一XML文档由构成一树状结构的元素所组成。每个元素也被称为一个节点(或标签节点),由一标签和一内容(或值)组成。所述树状结构从作用为根(根节点)的元素开始。所述单个元素被配置成这样的方式,它们具有父-子关系和兄弟-姐妹关系。
经常使用一标准化搜索语言来搜索XML文档中的节点。XPath和XQuery被认为是典型的查询语言。XPath用于通过指定所述XML文档中元素(或节点)的位置来进行搜索。
在包括一XML数据库管理系统的XML文档搜索系统(或者一结构化文档搜索系统)中,为了加快搜索,索引被对应附加给被认为是值搜索的可能目标的节点(例如,参见日本专利申请KOKAI公开号2006-018584的第0013段)。这样的索引被称为值索引。
附图2示例了树状结构的XML文档的例子。在一存储附图2的所述XML文档的数据库(XML数据库)中,假定搜索一满足标题为“TCP...”的条件的书。在这个例子中,以例如Xpath描述由一客户(一客户终端)作出的查询(下文中,称为第一查询),给出如下:
/bib/book[title=”TCP..”]
为了加快基于第一查询(XPath)的搜索,值索引被对应附加给被认为是值搜索的可能目标的标题节点。所述值索引由值(关键词),例如“TCP..”和“Adv..”,以及节点IDs的集合所组成。节点ID是分配给每个节点的唯一数字,其指示存储于所述数据库中的一XML文档中的一逻辑位置(节点位置)。
附图22A到22C示例了值索引的例子。附图22A示例了具有标题名字的值的节点(标题节点)的值索引的例子。附图22B示例了具有最后名字的值的节点(最后节点)的值索引的例子。附图22C示例了具有第一名字的值的节点(第一节点)的值索引的例子。这些值索引通常被保存在一值索引表格中。
在基于从客户向XML文档搜索系统的一查询的搜索中,利用一节点(元素)的值作为一关键词进行索引的搜索。如果相应的索引被找到,可以获得相应于所述值的节点ID。在所述第一查询(XPath)的例子中,所述XML文档搜索系统可以从被对应附加给所述标题节点的所述值索引中确定存在满足标题为“TCP..”的条件的节点,并且节点ID是3(参见附图22A)。
如上描述的,在搜索中利用索引(值索引)的所述XML文档搜索系统具有下面优点。首先,所述XML文档搜索系统可以确定是否存在符合所述查询条件的节点而不必搜索存储于所述数据库中的所有XML文档(或细查所述XML文档)。如果存在这样的节点,所述XML文档搜索系统可以确定所述节点的位置。这使得所述XML文档搜索系统能够高速执行搜索。
为了加快指定了结构条件的搜索,已知一种抽取存储在所述数据库中的XML文档上的结构信息并且编译一索引的方法。这样的索引被认为是结构索引。所述结构索引包括指示结构的一组路径字符串,例如“/”或“/bib”,以及具有所述结构的节点的节点ID。如果有多个节点符合相同的路径字符串(如,在附图2的例子中的“/bit/book”),所述多个节点ID相应于相同路径字符串。这样的结构索引的数据结构与应用于后面说明的本发明实施例的结构索引相同。因此,如果需要的话参考附图6。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社东芝;东芝解决方案株式会社,未经株式会社东芝;东芝解决方案株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810095185.3/2.html,转载请声明来源钻瓜专利网。