[发明专利]一种采集网页的方法及系统无效
申请号: | 200610160748.3 | 申请日: | 2006-11-29 |
公开(公告)号: | CN101178713A | 公开(公告)日: | 2008-05-14 |
发明(设计)人: | 杨卫;文杰;王宁 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京同达信恒知识产权代理有限公司 | 代理人: | 宋松 |
地址: | 518044广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 采集 网页 方法 系统 | ||
技术领域
本发明涉及通信及网络领域,特别是涉及一种采集网页的方法及系统。
背景技术
爬虫(也称为crawler、spider或robot)是搜索引擎中负责数据采集的子系统。爬虫采集的数据质量的高低直接影响到搜索引擎的搜索结果的质量。
爬虫系统在第一次爬行时,按照一定的策略来决定哪些网页先爬,哪些网页后爬;之后不断检测已爬过的网页是否被更新,并不断采集新的URL。在爬虫本轮爬行过程中,先爬行的网页内容(URL不变)可能已经发生了变化,如果搜索引擎对过期的页面进行索引,并作为某些关键字的搜索结果显示给用户,则用户看到的网页内容与预期的页面不符,会很大程度上影响用户感受。例如:某个商店的热门商品柜台的页面,商品频繁地上架下架,如果爬虫检测更新速度不快的话,很可能用户搜索mp3播放器得到的页面却显示蛋糕。又如:用户搜索XXX软件,得到的页面却为空白页。
爬虫系统的爬行能力是有限的,而互联网上的页面相对来说是无限的。爬虫在爬行新的网页的同时,要重新爬行旧的网页,以检测该网页是否被更新,并告知搜索引擎用新鲜的页面代替不新鲜的页面,维持整个网页集合一定的新鲜度。
设爬行URL集合为S={e1,e2,e3,...,eN},含有N个URL,则单个URL的新鲜度(freshness)定义为:
URL集合S的新鲜度(freshness)定义为:
为了使网页集合S的新鲜度最大化,即越接近1越好,现有技术提供了两种采集网页的方法。
现有技术一、固定更新法。即按照第一次采集网页时的顺序,依次检测更新网页内容。
显然,这种方法无异于重新爬行一遍互联网,每一轮所需爬行的网页数量巨大,无法在一定时间内全部检测更新所有的网页,进而使得网页集合S的新鲜度较小,不能根据网页的实际变化情况而变化。
现有技术二、随机更新法。从已采集的网页集合中随机抽取URL来做检测更新。
显然,这种方法检测更新的URL具有随机性,不能维持整个网页集合S的高新鲜度。
综上所述,现有的采集网页的方法不能保证网页集合的高新鲜度。
发明内容
本发明提供一种采集网页的方法及系统,用以解决现有的采集网页的方法不能保证网页集合的高新鲜度的问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200610160748.3/2.html,转载请声明来源钻瓜专利网。