[发明专利]一种采集网页的方法及系统无效

申请号：	200610160748.3	申请日：	2006-11-29
公开（公告）号：	CN101178713A	公开（公告）日：	2008-05-14
发明（设计）人：	杨卫;文杰;王宁	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京同达信恒知识产权代理有限公司	代理人：	宋松
地址：	518044广东省深圳市***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种采集网页方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及通信及网络领域，特别是涉及一种采集网页的方法及系统。

背景技术

爬虫(也称为crawler、spider或robot)是搜索引擎中负责数据采集的子系统。爬虫采集的数据质量的高低直接影响到搜索引擎的搜索结果的质量。

爬虫系统在第一次爬行时，按照一定的策略来决定哪些网页先爬，哪些网页后爬；之后不断检测已爬过的网页是否被更新，并不断采集新的URL。在爬虫本轮爬行过程中，先爬行的网页内容(URL不变)可能已经发生了变化，如果搜索引擎对过期的页面进行索引，并作为某些关键字的搜索结果显示给用户，则用户看到的网页内容与预期的页面不符，会很大程度上影响用户感受。例如：某个商店的热门商品柜台的页面，商品频繁地上架下架，如果爬虫检测更新速度不快的话，很可能用户搜索mp3播放器得到的页面却显示蛋糕。又如：用户搜索XXX软件，得到的页面却为空白页。

爬虫系统的爬行能力是有限的，而互联网上的页面相对来说是无限的。爬虫在爬行新的网页的同时，要重新爬行旧的网页，以检测该网页是否被更新，并告知搜索引擎用新鲜的页面代替不新鲜的页面，维持整个网页集合一定的新鲜度。

设爬行URL集合为S＝{e₁，e₂，e₃，...，e_N}，含有N个URL，则单个URL的新鲜度(freshness)定义为：F(ei;t)=1,ifeiisuptodateattimet0,otherwise]]>

URL集合S的新鲜度(freshness)定义为：F(S;t)=1NΣi=1NF(ei;t)]]>

为了使网页集合S的新鲜度最大化，即越接近1越好，现有技术提供了两种采集网页的方法。

现有技术一、固定更新法。即按照第一次采集网页时的顺序，依次检测更新网页内容。

显然，这种方法无异于重新爬行一遍互联网，每一轮所需爬行的网页数量巨大，无法在一定时间内全部检测更新所有的网页，进而使得网页集合S的新鲜度较小，不能根据网页的实际变化情况而变化。

现有技术二、随机更新法。从已采集的网页集合中随机抽取URL来做检测更新。

显然，这种方法检测更新的URL具有随机性，不能维持整个网页集合S的高新鲜度。

综上所述，现有的采集网页的方法不能保证网页集合的高新鲜度。

发明内容

本发明提供一种采集网页的方法及系统，用以解决现有的采集网页的方法不能保证网页集合的高新鲜度的问题。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于腾讯科技（深圳）有限公司，未经腾讯科技（深圳）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/200610160748.3/2.html，转载请声明来源钻瓜专利网。

上一篇：一种外动力源多工位焊接夹具
下一篇：GIS系统与拼接墙系统结合的方法及其装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种采集网页的方法及系统无效

专利文献下载