[发明专利]判断一组查询关键字或词在网页中位置相关性的方法无效
申请号: | 01109132.0 | 申请日: | 2001-03-09 |
公开(公告)号: | CN1306258A | 公开(公告)日: | 2001-08-01 |
发明(设计)人: | 王建勇;李晓明;谢正茂;单松巍;赵江华 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京大学专利事务所 | 代理人: | 余长江 |
地址: | 10087*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 判断 一组 查询 关键字 网页 位置 相关性 方法 | ||
本发明涉及信息检索技术领域,特别是中英文Web搜索引擎系统的信息检索技术。
为了提高搜索引擎的服务质量,通常搜索引擎系统在输出结果时都要考虑查询项所包含的关键字(词)在被检索网页中的位置相关性。例如,如果判断出这些关键字(词)在网页中是连在一起的,即网页中包含与查询项关键字(词)排列顺序相同的信息,则在查询结果输出时把这样的网页放在前面;有的搜索引擎系统则更干脆地只输出完全匹配用户查询项的网页。为了判断这些关键字(词)在网页中的位置是否连在一起,通常有两种办法:
1、完全字符串匹配;
2、网页分析时记录下各个关键字(词)在网页中出现的位置,然后根据位置
信息判断位置相关性。
第一种方法简单,但需要保存整个网页内容。这不但会浪费太多的存储空间,且效率太低,由于WWW上存放了超过10亿个网页,若对这近10亿个网页都进行查询项字符串匹配,则查询速度会慢得让用户无法忍受。而目前公开了查询项位置相关性分析技术的搜索引擎系统是美国的Google系统(参见S.Brin和L.Page所发表的论文:The Anatomy of a Large-Scale Hypertextual Web Search Engine,In proceedings of 7th World Wide Web Conference,1998)。Google维护了世界上最大的Web信息数据库,目前也是世界上最知名的搜索引擎之一。Google为了判断查询项中各个关键字(词)之间的位置相关性采用了第二种方法。
Google系统由网页搜集器、索引器以及检索器3部分组成。搜集器负责搜集网页并对之进行分析处理。在分析一个网页时,需要记录有哪些关键字(词)在文章中出现,这些字(词)在网页中出现了多少次,以及每次出现时该字(词)在文章中的位置。这样就得到了如图1所示的前向索引表。索引器根据前向索引表又可以生成倒排索引表,如图2所示。当用户提交一个查询项时,Google的检索器首先把该查询项分解为若干个关键字或词(除非该查询项本身就是一个关键词),并且根据倒排索引表找出包含了所有这些关键字或词的网页;然后计算这些网页的权值,并根据这些权值进行排序输出。在计算权值时,也要根据倒排索引表中记录的各个关键字(词)在网页中的位置来计算其位置相关性,相关性越高,附加权值也就越高,相应的网页排在前面的可能性也就越大。
而Google所采用的第二种方法,也存在空间复杂度和时间复杂度太高的缺点。首先,在该方法下,需要记录每个关键字在网页中出现的每个位置,空间复杂度很高;其次,检索器在依据这些关键字在网页中的位置判断查询项中各个关键字(词)的位置是否挨在一起时,需要进行大量的比较操作,时间复杂度也很高,会影响系统性能。事实上,Google为了降低空间复杂度和时间复杂度,它对记录的位置信息进行了限制,即它只考虑了每篇网页的前4K个关键字(词)的位置信息。即使是这样处理后,它的空间复杂度和时间复杂度仍然很高,且带来另外的缺点,即无法判断网页中第4K个关键字(词)之后出现的关键字(词)的位置相关性,这将影响检索质量。我们所要解决的问题就是在对判断位置相关性的准确率影响不大的基础上,存储尽可能少的信息以降低空间复杂度,同时这些信息又能够有利于在极短的时间内对位置相关性做出判断,即具有较低的时间复杂度。
为了避免Google系统为判断位置相关性所导致的较大的时间复杂度和空间复杂度,我们设计了另外一种判断一组查询关键字(词)在网页中位置相关性的方法。
本发明的内容与技术方案如下:
在搜索引擎系统分析网页时,首先要提取关键词和关键字。在我们的方法中,不再记录这些高频字(词)在网页中每次出现的位置,代替地,我们为每个关键字(词)只确定出其前面一个相邻字(或词)和后面一个相邻字(或词)。当用户提交查询请求时,检索器可以根据搜集网页时记录的位置信息判断在用户查询词中相邻的字(词)在网页中是否也相邻。如果相邻,则将网页的权值适当提高。这样在查询结果中,保持用户查询词中相邻关系的网页将会排在前面。
确定一个网页中某关键字(词)的前向相邻字(词)和后向相邻字(词)的主要依据是频率。虽然位于一个关键字或词之前且与该关键字(词)相邻的关键字词很多,但通常有一个与该关键字(词)相邻次数最多,我们把它作为关键字(词)的前向相邻字(词)。类似地,我们可以计算出一个关键字(词)的后向相邻字(词)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/01109132.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:扫描器运动轨迹平稳度的测试方法
- 下一篇:合成汽油