[发明专利]基于内容引用的网页搜索结果排序方法无效
申请号: | 200910081203.7 | 申请日: | 2009-03-30 |
公开(公告)号: | CN101526956A | 公开(公告)日: | 2009-09-09 |
发明(设计)人: | 高嵩;周强 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/20 |
代理公司: | 北京众合诚成知识产权代理有限公司 | 代理人: | 朱 琨 |
地址: | 100084北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 内容 引用 网页 搜索 结果 排序 方法 | ||
技术领域
本发明属于自然语言处理技术领域
背景技术
随着Internet规模的迅速膨胀,如何从Internet上获取用户需要的信息成为一个重要的研究课题,于是搜索引擎技术应运而生。它根据用户的查询返回一系列可能与用户的查询相关的网页,并按照某种算法对这些网页进行排序最后呈现在用户面前。评价一个搜索引擎的性能主要有以下这些指标:准确率、查全率、第一页(或前N个结果)的准确率。由于Internet上面的信息量极其庞大,而且用户关心的是迅速准确的找到自己需要的信息,所以真正用户最直接体验的指标是第一页(或前N个结果)的准确率。一个好的搜索引擎必须有一个好的搜索结果排序算法,将质量最好的网页放在第一页呈现给用户。现在最广泛应用的搜索结果排序算法是PageRank算法和HITS算法。PageRank算法与HITS算法均是基于链接分析的搜索引擎排序算法,并且在算法中二者均利用了特征向量作为理论基础。他们都有一个局限性:即认为网页之间的全部联系就是超链接。所有的计算也都是基于网页之间的超链接进行。而现实中很可能网页中不包括显式的超链接,有可能以文字表明文章来源,也可能直接引用其它文章的文字而不加说明,或者虽然文字不是完全一致但是明显借鉴了另外一篇文章等等,按照PageRank的思想这些行为实际上都应当提高引用源页面的排序分值,但由于没有超链接存在,所以现有的PageRank算法并不能体现这些关系。这便造成了PageRank算法结果与实际情况的偏差。
根据统计在中文网页中大量存在不加任何说明注释的直接引用,更没有超链接指向引用源,这造成了很多网页现有的排序值很低,背离了该网页的真实重要程度,影响了网页排序算法的效果。如何在网页超链接相对比较缺乏时,挖掘并利用这种超链接之外的网页之间的相互关系成为一个有着重要现实意义的课题。而基于文本内容的网页排序算法则很接近人的直观认识,它不区分不同网页上的相同文字,排序的对象不是一个用URL标示的网页而是网页中的文章内容。本发明正是基于这种思想提出了一种基于文本引用关系的网页排序算法。算法认为被引用次数越多的文本段落可能越重要,从而应当获得更好的排名。当一个网页中的内容被很多网页引用时,我们认为有很多人同意该网页的观点,于是给该网页一个较高的评分。另外如果一个网页引用了许多其他网页的内容,我们认为他包含了很大的信息量,是一种总结性综述性的文章,同样也给其一个较高的评分。它从一个与当前流行的基于超链接分析的网页排序算法完全不同的侧面着眼,能够挖掘出大量无法体现在超链接中的文本信息,以接近人类思考的方式进行网页排名。当用户需要查询包含大量信息的网页时,如查询某词的定义、百科知识等,这种算法比起传统的基于超链接分析的算法有着较明显的优势。
术语定义
查询词:用户提交的用于查询的词。系统返回一系列与查询词相关的网页,按照重要程度从高至低进行排序。
待处理网页:使用搜索引擎获取的与查询词相关的一系列网页。整个算法的排序对象就是这些网页。
文本块:网页中长度约为10个汉字的纯文本片断。
引用/引用块:当一个文本块同时在两个以上的网页上出现时,称之为引用。该文本块称之为引用块。
有效引用/有效引用块:为区别于无效引用块,我们将包含一定相关信息量,确实能够反映文档重要程度的引用块称为有效引用块,该引用称为有效引用。
无效引用/无效引用块:一些只包含广告文字、论坛导航信息、版权声明等与查询词完全无关的引用块称为无效引用块。这些引用块会对结果造成一定干扰,必须设法尽量检出。
无效引用块列表:事先生成的一些无效引用块的列表。在后面的计算中凡是在该列表中的引用全部不计算。
哈希表:按照(关键字,值)对进行存储的数据结构。对给定关键字可以迅速查找到其相对应的值(无论表的规模如何,均可在固定时间内找到对应的值)。
块索引表:针对所有待处理网页中的文本块,建立一个对(文本块,包含该文本块的网页编号列表),使用哈希表进行存储,称为块索引表。
大规模互联网语料库:从Internet上抓取的包含极大数量网页的语料库。
发明内容
本发明的目的在于提出一种基于内容引用的网页搜索结果排序方法,把包含用户所希望的内容的网页排在前面。
本发明的特征在于:
所述方法是在信息检索系统的计算机上依次按以下步骤实现的:
步骤(1)初始化
步骤(1.1)建立相关网页获取模块、网页正文获取模块、文本分块模块、引用列表建立模块以及网页排名计算模块,其中:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910081203.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据存储方法和装置
- 下一篇:写入数据的方法及装置
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法