[发明专利]基于超链接来源分析的网页排名方法无效
申请号: | 201210428450.1 | 申请日: | 2012-11-01 |
公开(公告)号: | CN102915369A | 公开(公告)日: | 2013-02-06 |
发明(设计)人: | 杨博;李剑楠 | 申请(专利权)人: | 吉林大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 130012 吉*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 超链接 来源 分析 网页 排名 方法 | ||
技术领域
本发明属于信息检索领域,尤其涉及到基于超链接分析的网页排名计算方法。
背景技术
互联网飞速发展的同时,互联网上的信息量也呈爆炸式增长。用户要从海量的资源中寻找到对自己有帮助的信息,大都需要依靠搜索引擎的帮助。搜索引擎可以根据用户的搜索需求,从互联网中找到与需求相关的信息返回给用户。通过对大量用户行为的统计,在搜索引擎为用户返回的结果中,用户只对前几页的内容感兴趣。因此,搜索引擎都具备一个网页排名算法用于对将要返回给用户的结果进行排序,之后再将排序后的结果返回给用户。其目的是希望将最有价值的网页排在最前面,使用户只需浏览前几页的信息就能找到对自己有用的资源。排名算法性能的优劣将会直接影响搜索引擎的服务质量和用户的搜索体验。另一方面,搜索引擎正面临着日益严重的网页作弊问题——网站创建者利用现有排名算法的缺陷,通过欺骗手段达到虚假提高网站中网页排名的目的。作弊网页质量不高,甚至包含虚假信息,严重影响了搜索服务质量。随着基于链接排名算法的广泛应用,基于链接的作弊己成为网页作弊的主要形式,如链接交换、构造链接农场和操纵子结点作弊等等。因此,排名算法和作弊检测一直都是搜索引擎研究中的热点问题。
由Brin和Page提出的PageRank算法以及Kleinberg提出的HITS算法是最著名的两种基于链接结构的网页排名算法。PageRank算法认为:一个网页被高质量网页指向的次数越多,该网页的质量也就越高。其在现实中应用十分广泛,受到了学者们的关注与研究。HITS算法认为每个网页具备两种属性:权威性(authority)和中心性(hub)。权威性高的网页包含了用户需要的信息资源,而中心性高的页面中包含了很多指向高权威性网页的链接。之后,有很多学者对这两种算法进行了改进。1998年,Chakrabarti S提出的ARC(Automatic Resource Compilation)算法通过锚文本及锚文本的上下文中包含的查询关键词的数量为其对应的链接分配权值,解决了HITS算法容易出现的“主题漂移”问题。2000年,Lemple和Moran提出SALSA(Stochastic Approach for Link-Structure Analysis)算法,将随机游走模型应用到了HITS算法中,同样解决了“主题漂移”问题,并且减少了算法的运行时间。2000年,Bharat提出Hilltop算法,该算法不完全依赖PageRank得分去寻找权威页面,这样可以有效避免链接作弊带来的影响,提高了主题相关性。2002年,来自斯坦福的Haveliwala对PageRank进行改进,提出TSPR(Topick-Sensitive PageRank)算法。该算法基于ODP(Open Directory Project)中收录的网页,对每个目录主题都求得一个PageRank得分向量,同样增强了排名的主题相关性。
针对链接作弊检测,研究者将信任传播(trust diffusion)引入到排名算法中。2004年,Gyangiy等人提出了TrustRank算法。算法认为:高质量的网页很少指向不好的网页。算法需要先挑选出一个页面种子集作为可信网页,为其分配初始信任值。信任值沿链接向下传递,最终根据网页的信任值判断网页的可信程度。但算法结果易受种子集的影响。2006年,Wu等人运用类似Topick-Sensitive PageRank的方法对TrustRank进行了改进,提出Topick TrustRank算法。该算法仍旧依靠ODP的主题分类,针对每个主题中的种子集都对网络进行一次TrustRank运算,这样一个网页就会有多个信任度得分,每个得分对应一种主题,最后综合这些得分作为页面信任度的最终得分。2006年,Krishnan提出了一种与TurstRank正好相反的算法Anti-TrustRank。该算法的传播源是作弊页面集合,其思想是:如果一个网页信任了一个作弊网页,那么这个网页应该也是不值得信任的。与此类似的还有BadRank算法。考虑到信任度与非信任度都可以在网络中传播,Wu等人又提出一种结合两者的算法,让信任度与非信任度同时在网络中传播。网页将会得到针对两个属性的得分,最终综合这两个得分作为判断依据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210428450.1/2.html,转载请声明来源钻瓜专利网。