[发明专利]一种文本检索的方法和装置有效

专利信息
申请号: 200710123832.2 申请日: 2007-10-09
公开(公告)号: CN101140583A 公开(公告)日: 2008-03-12
发明(设计)人: 胡辛遥;韩定一;俞勇;金洪波;吕晓雨 申请(专利权)人: 华为技术有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 518129广*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 文本 检索 方法 装置
【说明书】:

技术领域

发明涉及文本检索技术,尤其涉及一种在网络上进行文本检索的方法和装置。

背景技术

万维网上每年新增的数据超过1018bytes,并且每年继续以指数级别增长。现有的一些搜索引擎已经不能适应这样的增长规模。这样的增长规模要求一种新的构架,使得它能够迅速索引和查询内容信息,例如HTML、纯文本、音乐和图像。在另一方面,对等网络在近几年获得了广泛的接受。它们的可扩展性,容错性以及自适应性的本质引起了人们在对等网络之上建立低成本的搜索引擎的兴趣。

虽然最近一些基于对等网络的搜索技术被提出,它们大都是基于简单的关键词匹配,没有使用信息检索领域的一些更高级的排序算法。在没有排序算法的情况下,当用户输入一些比较流行的关键词,就会返回很多文档,这些文档的数目超过了用户的处理能力,这使得这些系统不可用。

这些现有对等网络系统的另一个基本问题是:文档是随机分布的。当用户输入一个查询时,系统需要搜索大量的节点。如果系统使用一些启发式的规则来缩小查找的范围,则会丢失一些与查询相关的文档。为了解决这个问题,基于语义overlay被提出。在基于语义overlay之上,内容是根据它们的语义来组织的。内容之间的距离正比于它们语义上的相似度。

CAN(Content-Aware Network,内容感知网络)是一种对等结构化网络。CAN从概念上理解是一个n维笛卡尔空间,即每个点在CAN空间中可以表示为(x1,...,xn)。每一个peer(可以理解为一台真实的PC),管理着一个区域,即(x1_low<=x1<=x1_high,...,xn_low<xn<xn_high)。在2维空间中,每一台机器管理一个矩阵区域,3维空间中,每一台机器管理一个立方体。n维空间中,每一台机器管理一个超立方体。

CAN的路由机制就是从每一维上接近目标,即(2,3,4)需要路由到(3,4,5),可以如下路由,(2,3,4)->(3,3,4),此时,第一位已经满足了,再路由第二位,(3,3,4)->(3,4,4),最后路由第三位,到(3,4,5)。

CAN空间的索引,假设peer1需要将d=(d1,...,dn)索引到CAN空间中。首先它找到包含d的区域,再将(peer1,d)关系存储到peer2(包含该区域的节点)上。它只是存储了一个关系,而没有实际将文档复制过去CAN中存放的是n维的向量,这与信息检索中查询和文档的表示方法很类似,因此基于语义overlay一般使用CAN来存放对象。将内容作为向量存放到CAN空间的想法是很直接的。但是它引入了一系列复杂的问题:

(1)在信息检索中,文档与查询是由高维向量来表示的,通常是几万维,而CAN空间的维度一般是几十,维度的不匹配使得不能直接将文档索引至CAN中;

(2)维灾难一一高维空间中的相似度不准确,这导致了在高维空间中进行查询变得困难。

相似查询(Similarity Search)被广泛地应用在各种系统中,比如图像检索、网页检索和数据压缩等。在这些应用中,真实的对象被抽象成几何空间中的向量。通过定义一个或多个计算相似度的函数,可以用来衡量人对对象之间相似度的印象。例如:可以认为两个向量之间的夹角就是真实对象的相似度,或者认为两个向量的Jaccard值为真实向量的相似度。为了尽可能地准确计算相似度,向量之间的相似度通常需要在高维的空间中进行计算。假设高维空间的维数为n,那么一般的方法需要用n个单位空间来存储,计算向量之间的相似度时间复杂度约为O(n)。例如,在一个600MB大小的纯英文文本的文档集合里,文本向量空间的维数可以高达几十万。在这种情况下,存储这些向量需要很大的存储空间,计算向量之间相似度的运算量也很大。因此,为了减少存储空间和简化向量之间相似度的计算,需要一种简单有效的降维方法,将高维空间的向量映射到低维空间。

然而,现有用于做相似查询的数据结构,如B+树,kd树,vp树和CAN等,都要求对象以低维空间的向量来表示。如果将高维向量直接应用在这些数据结构上,这些算法的有效性会大大降低。因此,将高维向量降维到低维空间并在一定程度上保持原来的相似度,对很多应用来说都有重要意义。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200710123832.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top