[发明专利]基于内容引用的网页搜索结果排序方法无效

申请号：	200910081203.7	申请日：	2009-03-30
公开（公告）号：	CN101526956A	公开（公告）日：	2009-09-09
发明（设计）人：	高嵩;周强	申请（专利权）人：	清华大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/20
代理公司：	北京众合诚成知识产权代理有限公司	代理人：	朱琨
地址：	100084北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于内容引用网页搜索结果排序方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于自然语言处理技术领域

背景技术

随着Internet规模的迅速膨胀，如何从Internet上获取用户需要的信息成为一个重要的研究课题，于是搜索引擎技术应运而生。它根据用户的查询返回一系列可能与用户的查询相关的网页，并按照某种算法对这些网页进行排序最后呈现在用户面前。评价一个搜索引擎的性能主要有以下这些指标：准确率、查全率、第一页(或前N个结果)的准确率。由于Internet上面的信息量极其庞大，而且用户关心的是迅速准确的找到自己需要的信息，所以真正用户最直接体验的指标是第一页(或前N个结果)的准确率。一个好的搜索引擎必须有一个好的搜索结果排序算法，将质量最好的网页放在第一页呈现给用户。现在最广泛应用的搜索结果排序算法是PageRank算法和HITS算法。PageRank算法与HITS算法均是基于链接分析的搜索引擎排序算法，并且在算法中二者均利用了特征向量作为理论基础。他们都有一个局限性：即认为网页之间的全部联系就是超链接。所有的计算也都是基于网页之间的超链接进行。而现实中很可能网页中不包括显式的超链接，有可能以文字表明文章来源，也可能直接引用其它文章的文字而不加说明，或者虽然文字不是完全一致但是明显借鉴了另外一篇文章等等，按照PageRank的思想这些行为实际上都应当提高引用源页面的排序分值，但由于没有超链接存在，所以现有的PageRank算法并不能体现这些关系。这便造成了PageRank算法结果与实际情况的偏差。

根据统计在中文网页中大量存在不加任何说明注释的直接引用，更没有超链接指向引用源，这造成了很多网页现有的排序值很低，背离了该网页的真实重要程度，影响了网页排序算法的效果。如何在网页超链接相对比较缺乏时，挖掘并利用这种超链接之外的网页之间的相互关系成为一个有着重要现实意义的课题。而基于文本内容的网页排序算法则很接近人的直观认识，它不区分不同网页上的相同文字，排序的对象不是一个用URL标示的网页而是网页中的文章内容。本发明正是基于这种思想提出了一种基于文本引用关系的网页排序算法。算法认为被引用次数越多的文本段落可能越重要，从而应当获得更好的排名。当一个网页中的内容被很多网页引用时，我们认为有很多人同意该网页的观点，于是给该网页一个较高的评分。另外如果一个网页引用了许多其他网页的内容，我们认为他包含了很大的信息量，是一种总结性综述性的文章，同样也给其一个较高的评分。它从一个与当前流行的基于超链接分析的网页排序算法完全不同的侧面着眼，能够挖掘出大量无法体现在超链接中的文本信息，以接近人类思考的方式进行网页排名。当用户需要查询包含大量信息的网页时，如查询某词的定义、百科知识等，这种算法比起传统的基于超链接分析的算法有着较明显的优势。

术语定义

查询词：用户提交的用于查询的词。系统返回一系列与查询词相关的网页，按照重要程度从高至低进行排序。

待处理网页：使用搜索引擎获取的与查询词相关的一系列网页。整个算法的排序对象就是这些网页。

文本块：网页中长度约为10个汉字的纯文本片断。

引用/引用块：当一个文本块同时在两个以上的网页上出现时，称之为引用。该文本块称之为引用块。

有效引用/有效引用块：为区别于无效引用块，我们将包含一定相关信息量，确实能够反映文档重要程度的引用块称为有效引用块，该引用称为有效引用。

无效引用块列表：事先生成的一些无效引用块的列表。在后面的计算中凡是在该列表中的引用全部不计算。

哈希表：按照(关键字，值)对进行存储的数据结构。对给定关键字可以迅速查找到其相对应的值(无论表的规模如何，均可在固定时间内找到对应的值)。

块索引表：针对所有待处理网页中的文本块，建立一个对(文本块，包含该文本块的网页编号列表)，使用哈希表进行存储，称为块索引表。

大规模互联网语料库：从Internet上抓取的包含极大数量网页的语料库。

发明内容

本发明的目的在于提出一种基于内容引用的网页搜索结果排序方法，把包含用户所希望的内容的网页排在前面。