[发明专利]一种Web新网页推荐方法无效
申请号: | 201010155971.5 | 申请日: | 2010-04-26 |
公开(公告)号: | CN102236655A | 公开(公告)日: | 2011-11-09 |
发明(设计)人: | 张岩 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京北新智诚知识产权代理有限公司 11100 | 代理人: | 赵郁军 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 web 网页 推荐 方法 | ||
技术领域
本发明涉及一种推荐Web新网页的方法,尤其涉及一种针对搜索引擎排名算法的弱点,在尽量不影响搜索结果质量的前提下,向用户推荐高质量的新网页的方法,属于互联网搜索技术领域。
背景技术
当前,搜索引擎已经渐渐成为人们获取信息的主要方式之一。当搜索引擎把查询结果返回给用户时,查询结果的排列方式对结果被用户关注和点击的概率具有绝对的影响。那么应该如何对结果合理排名呢?在结果与查询关键词的匹配度一样的情况下,最理想的排名方案应该是按照结果页面质量从高到低排列。然而页面质量(page quality)是一个相当主观的概念。它需要通过网络用户的主观判断而得到,但是首先人工的评判需要大量的人力物力财力,耗费大量的时间。其次,由于不同的个体对于同一个Web页面的质量可能会得出不同的评价,使得人工网页评价成为相当不实际的做法。
在此背景下,搜索引擎排名算法的设计者转而考虑用一些客观的易于被观察和计算的特征值来替代和近似估计一个网页的重要性程度。因而,Web页面流行度(page popularity)的概念被提出了。Web页面流行度代表一个网页被用户喜欢的程度,可以用页面获得的inlink数或者点击次数来计算。1998年S.Brin和L.Page等人提出了利用Web链接结构图来获得页面重要性的算法,即PageRank算法。PageRank算法很好地利用了“群体智慧”,使搜索引擎的性能大为提高,是当前排名算法中的佼佼者。因此,PageRank算法目前仍然是绝大多数商业搜索引擎的排名算法的基础。
基于网页流行度的排名算法虽然能够帮助网络用户搜寻有用的信息,但它同时也引发了一些弊端。Web是一个规模巨大、新旧页面不断更替的动态环境,其中每个新页面都会经历一个流行度从小到大,直到与其本身质量相一致的成长过程。当用网页流行度来近似获得网页质量时,Web新页面的质量往往被低估了。特别是当搜索引擎开始主导用户的浏览模式时,新页面被访问的概率大大下降,流行度的成长过程被大大的延长了。
为了解决新网页容易被搜索引擎所忽视的问题,S.Pandey和S.Roy等人提出了一种Shuffling方法。该方法的本质是剥夺一个成熟页面被展示的机会,而把这个机会让给某个被随机推荐出来的新页面。由于Shuffling方法在选取被推荐的新页面时采用的是随机法,因此被推荐的新页面的质量可能参差不齐,所以很可能造成一个质量不佳的新页面占据了良好的展示位置出现在结果集合中,却没有能为用户带来有用信息的局面。虽然Shuffling方法在理论上对于新页面提升认知度有一定作用,但实际应用的效果难以得到保障。
在提高搜索结果时效性方面也有很多类似的技术。例如在专门针对新闻时事的搜索引擎中,搜索结果通常都是按照页面发布的时间或者时新度(freshness)排名的,因为新闻搜索引擎的用户更关注的是最新报道,根据结果时效性来对结果排名是最符合用户需求的。页面时效性对于新闻搜索排名是有实际意义的,但无法用于评价新网页的质量,因此并不适合作为推荐普遍意义上的新页面的衡量标准。
发明内容
本发明所要解决的技术问题在于提供一种Web新网页推荐方法。该方法可以使新页面有更多机会被用户认知,有助于优化搜索引擎的排名,提高用户满意度。
为了实现上述的发明目的,本发明采用下述的技术方案:
一种Web新网页推荐方法,其特征在于包括如下步骤:
对于新网页,首先确定所述新网页出现在搜索引擎返回结果中的推荐比例;然后估测新页面的潜在质量,根据潜在质量的高低以预定的概率选取被推荐的新网页;将被推荐的新网页和搜索引擎返回结果一起展示给用户。
其中,所述推荐比例为15%~20%。
在估测新页面的潜在质量时,使用的方法包括以下三种:
(1)使用新网页当前的PageRank结果(简称Naive方法)
(2)使用兄弟页面PageRank的均值(简称ASP方法)
(3)使用兄弟页面PageRank的中值(简称MSP方法)
将被推荐的新网页和搜索引擎返回结果一起展示给用户时,可以采用的页面展示方法包括显式展示法和隐式展示法,其中隐式展示法是将被推荐的新页面与原来的10个结果混合在一起,没有区分的展示给用户;显式展示法是将被推荐的新页面以某种显著的方式展示给用户。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010155971.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种全球定位系统终端设备
- 下一篇:切割机