[发明专利]网页抓取的方法及设备有效

申请号：	201310499548.0	申请日：	2013-10-22
公开（公告）号：	CN103530390B	公开（公告）日：	2018-09-04
发明（设计）人：	魏少俊	申请（专利权）人：	北京奇虎科技有限公司;奇智软件（北京）有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京华沛德权律师事务所 11302	代理人：	刘杰
地址：	100088 北京市西城区新***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	网页抓取方法设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了网页抓取的方法及设备，其中所述方法包括：获取在目标网站上进行网页抓取的动态流量配额值；根据所述动态流量配额值，对所述目标网站上的网页进行抓取。通过本方法，在搜索引擎爬虫程序抓取网站中的网页时，减少了爬虫程序与被抓取站点的冲突，使爬虫程序抓取行为与搜索引擎更新需求得到了合理的平衡。

技术领域

本发明涉及搜索引擎技术领域，具体涉及网页抓取的方法及设备。

背景技术

搜索引擎是一种互联网信息平台，通过搜索引擎能够将互联网上的大量网页信息收集起来，经过加工处理后，建立信息数据库和索引数据库，用户可以通过在搜索引擎提供的入口中输入查询词，从而获取搜索引擎针对该查询词返回的搜索结果。随着搜索引擎技术的不断发展和成熟，其提供的服务业越来越完善，在人们从规模庞大的互联网中获取所需信息时，搜索引擎已经成为一种非常常用，也非常便利的工具。

搜索引擎为了能够下载互联网上的网页，以供分析网页数据和建立索引，往往需要使用一种抓取网页的工具程序，这种程序通常被称为“爬虫程序”或“蜘蛛程序”。由于互联网上总是不停的产生新网页，同时原有的网页也在不断的更新，因此爬虫程序需要不停的工作，以保证搜索引擎能够得到最新的网页数据。为了提供更好的搜索结果，搜索引擎的爬虫程序总希望能够更快地收录互联网上的新网页以及更新的原有网页。但网页资源位于网络上的各个站点主机上，爬虫程序对网页资源的抓取势必会占用站点主机的服务资源，如站点主机的软硬件处理资源，带宽等。如果抓取网页的任务超过了站点主机的承受范围，就会影响到网站用户的正常访问，那么爬虫程序的网页抓取行为就成为了对网站不友好行为，严重时会导致影响网站响应超时，甚至网站服务器崩溃。而且，为保护网站的稳定性，网站常常会监控爬虫程序的访问，并对产生不友好行为的爬虫程序采取限制，甚至禁止访问措施。一旦爬虫程序被限制或禁止，搜索引擎的网页抓取效率会变低，甚至无法更新或下载该网站网页资源，最终对搜索服务的提供产生负面影响。

同时，现有技术中一般是由人工设定来设定爬虫程序可对网站抓取的流量或频率，这种方式虽然减少搜索引擎的爬虫程序与被抓取网站的冲突，但是对网页数据更新没有得到最大体现，因此使得爬虫程序抓取行为与网站数据更新的需求没有得到合理的平衡。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的网页抓取的设备和相应的网页抓取的方法。

依据本发明的一个方面，提供了一种网页抓取的方法，包括：

获取在目标网站上进行网页抓取的动态流量配额值；

根据所述动态流量配额值，对所述目标网站上的网页进行抓取。

可选地，所述获取在目标网站上进行网页抓取的动态流量配额值，包括：

获取所述目标网站的受访问数据；

根据所述受访问数据，确定所述目标网站的抓取承受流量；

获取所述目标网站内网页的网页质量分布；

根据所述目标网站内网页的所述网页质量分布，确定抓取目标网站的任务流量；

根据所述目标网站的抓取承受流量，以及所述抓取目标网站的任务流量，确定在所述目标网站上进行网页抓取的动态流量配额值。