[发明专利]XML关键词检索的摘要生成方法无效
申请号: | 201010614955.8 | 申请日: | 2010-12-30 |
公开(公告)号: | CN102004802A | 公开(公告)日: | 2011-04-06 |
发明(设计)人: | 邓志鸿;江家健 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京万象新悦知识产权代理事务所(普通合伙) 11360 | 代理人: | 贾晓玲 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | xml 关键词 检索 摘要 生成 方法 | ||
技术领域
本发明涉及XML检索技术,尤其是一种XML关键词检索的摘要生成方法,可以应用在XML关键词搜索引擎以及其他结构化或者半结构化数据的关键词搜索引擎中。
背景技术
自1998年诞生以来,由于开放性,自描述性以及简洁性等特点,XML文档现广泛应用于互联网,数据库等领域,已经成为互联网上数据交换和集成的语言标准。随着XML文档的大量涌现,如何快速地从大规模XML文档中寻找出满足用户需求的信息成为信息检索以及数据库领域的一个研究热点。一个具体的XML文件如图1所示,图2是图1所示XML文档对应的树形结构。
XML信息检索可分为两大类:关键词检索和“关键词+结构”检索。由W3C(the WorldWide Web Consortium)颁布的XML检索标准XPath和XQuery是“关键词+结构”检索的代表,“关键词+结构”检索在为用户准确表达其查询需求方面提供了有效的描述手段,从而能获得高质量的查询结果。但是“关键词+结构”检索要求用户掌握相关的查询语言,并且对XML文档的结构信息有所了解,从而限制了这种检索方式在实际中的应用范围。关键词检索是一种经过实践证明且取得巨大成功的检索方式,是在传统搜索引擎中被广泛采用的检索手段。在传统搜索引擎的影响下,普通互联网用户现在已经习惯于关键词检索方式,因为关键词检索简单易用,能迅速被普通用户所掌握。因此,XML关键词检索比“关键词+结构”检索更具有现实应用意义。XML关键词检索也因此成为了XML信息检索领域的研究重点。
XML关键词检索即用户以关键词作为表达查询的手段对XML文档(集)进行检索的模式。由于XML文档是包含层次结构信息的,而关键词检索只能模糊地表达用户的查询语义,如何通过关键词检索,充分利用XML文档内部的结构信息,来为用户提供精确的检索服务就是一件非常有现实意义且具有极大挑战性的事情。
目前,关于XML关键词检索已有相当多的研究,但对于XML检索结果的摘要提取的技术研究仍然比较欠缺。传统的搜索引擎(如谷歌、百度等)在对给出关键词找出相应的网页作为结果后,把每个网页中出现关键词的一段文字作为摘要返回给用户,如附图3所示。与传统的搜索引擎不同,基于XML的关键词检索提供了更丰富的结构信息,大量标签的引入以及树形结构的组织使得每个XML文档中各信息之间的结构关系更加清晰,这使得对每个XML文档进行摘要提取时也能按照树形结构组织,从而给用户提供更加形象化的信息。
文献[1][2][3]针对XML关键词检索的摘要提取提出了XSeek模型,并根据此模型实现了自动生成摘要的系统eXtract,系统实现的实例见附图4。XSeek模型提出了一个好的摘要(snippet)所应满足的几个条件:完整性(self-contained)、可区分性(distinguishable)和代表性(representative)。完整性是指摘要应包含相关的“主语”,也就是要包含必要的实体信息,即文档描述的对象是什么;区分性是指不同的文档的摘要应互不相同,用户能通过摘要就区分出不同文档之间的差异性;代表性是指摘要应该把对应文档的最突出的一些特征反映出来,能反映文档的主要信息。在满足以上三个条件的基础上,一个好的摘要还应尽量简短,[1]中还给出了在有长度限定(不能超过LimitSize)的情况下生成符合上述三个条件的算法,[3]对相应的eXtract系统进行了展示。
XSeek模型提出了评价一个摘要好坏的几条标准,并实现了在长度限定的情况下生成比较符合完整性、可区分性和代表性三个条件的摘要的算法。但是XSeek模型没有对每个评价标准给出定量的计算公式,从而不能对摘要满足各个标准的程度进行一个准确的评估。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010614955.8/2.html,转载请声明来源钻瓜专利网。