[发明专利]以用户历史优化WEB爬取有效

专利信息
申请号: 201280038672.0 申请日: 2012-07-31
公开(公告)号: CN103718171B 公开(公告)日: 2016-11-09
发明(设计)人: D.M.维尔曼;F.卡内尔;B.什亚姆库马;C.(X.)张 申请(专利权)人: 微软技术许可有限责任公司
主分类号: G06F17/00 分类号: G06F17/00;G06F17/30
代理公司: 永新专利商标代理有限公司 72002 代理人: 王英
地址: 美国华*** 国省代码: 美国;US
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用户 历史 优化 web
【说明书】:

背景技术

搜索引擎使用web爬取器来理解万维网(“web”)上的文档。Web爬取器是持久地搜索web从而通过它们的内容(例如,关键词、文本、互惠链接、视频、图像、音频等等)索引web站点的程序。因为web站点是不断地改变的,所以web爬取器必须重复地爬取站点以便索引最新鲜的内容。然而,重复性地访问web站点对于站点的所有者造成问题,因为托管站点的服务器可能仅能够同时服务特定数目的用户/请求者。所以在峰值业务量周期期间爬取站点(例如,用于在特定股票交易的开市钟附近交易股票的站点)对于站点的稳定性来说变得危险。在站点的业务量的不稳定性质的情况下平衡索引新鲜内容的需要对于现代web爬取器来说是困难任务。

站点所有者设法控制web爬取器访问他们的站点的速率的传统方式是通过称作“robot.txt”文件的指导文本文件。Robot.txt文件指示web爬取器能够访问站点的速率(“爬取速率”)和web爬取器必须在获取之间等待的延迟(“爬取延迟”)。爬取速率和延迟两者是预定静态值,其因此不允许基于站点业务量的调整。

发明内容

本发明内容被提供来以简化的形式介绍概念的选择,所述概念下面在具体实施方式中被进一步描述。本发明内容不旨在标识所要求保护的主题的关键特征或必要特征,它也不旨在被用来帮助确定所要求保护的主题的范围。

一个方面针对在web爬取器的管理和调度中使用从客户端计算设备上的web浏览器发送的日志数据。日志数据向web浏览器的用户指示web历史。来自许多不同客户端的日志数据被接收和聚合,并且经聚合的数据日志数据被分析以便理解web站点在不同时间帧期间历史上有多忙碌。假定不同时间帧的历史上的忙碌是将来时间帧在相同时间期间的忙碌的合宜预测器,一个实施例使用在时间帧期间经计算的业务来概率性地估计对于将来时间帧来说到web站点的业务量。业务量估计被用来确定对于web爬取器访问和爬取web站点的速率。

另一方面针对聚合从客户端web浏览器周期性地接收到的日志数据与其它接收到的客户端-浏览器日志数据以便理解web站点在不同时间帧期间的历史上的忙碌。使用聚合日志数据,在一个或多个时间帧期间到web站点的业务量的概率估计被形成,并且web爬取器被设置成以将不超过业务量估计的速率来获取web站点。这样做提供了web爬取器将不使web站点崩溃的高概率。

在又一个方面,服务器被配置成执行管理web爬取器的优雅(politeness)管理器。优雅管理器基于由客户端web浏览器所发送的指示那些浏览器的历史的日志数据来估计在不同时间帧期间对web站点的页面请求的门限频率。基于所述日志数据,优雅管理器调度一个或多个web爬取器以便以低于页面请求的门限频率的速率来访问web站点。Web爬取器根据优雅管理器的调度来访问web站点,从而累积地以低于页面请求的门限频率的速率进行爬取。

附图说明

本发明参考附图在下面被详细地描述,其中:

图1是根据一个实施例的计算设备的框图;

图2是根据一个实施例的用于智能地爬取web站点的联网环境的框图;

图3是根据一个实施例的具有致力于智能地爬取web站点的数个设备的处理流程的图;

图4是根据一个实施例的用于智能地爬取web站点的流程图的图;以及

图5是根据一个实施例的用于智能地爬取web站点的流程图的图。

具体实施方式

本文中所描述的主题被具体地呈现以满足法定要求。然而,本文中的描述不旨在限制本专利的范围。替代地,所要求保护的主题还可以与其它目前的或将来的技术相结合地被以其它方式体现,以便包括不同的步骤或与在本文档中所描述的步骤类似的步骤的组合。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201280038672.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top