[发明专利]网页爬取方法和装置在审

申请号：	201710117896.5	申请日：	2017-03-01
公开（公告）号：	CN108536691A	公开（公告）日：	2018-09-14
发明（设计）人：	单长美;李玲	申请（专利权）人：	中兴通讯股份有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	广东广和律师事务所 44298	代理人：	章小燕
地址：	518000 广东省深圳市***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	目标网站网站链接网页方法和装置链接网站过滤策略过滤存储空间杂质数据滤除外链带宽占用配置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种网页爬取方法和装置，所述方法包括以下步骤：配置爬取任务和爬取策略；所述爬取任务包括目标网站，所述爬取策略包括URL限制策略；根据所述目标网站生成爬取列表；依次爬取所述爬取列表中目标网站的网页，获取所述网页中的网站链接；根据所述URL限制策略过滤所述网站链接，以滤除所述网站链接中的无效链接，并将过滤后剩余的网站链接作为目标网站的链接加入所述爬取列表中以供后续爬取。从而，通过对爬取到的外链进行控制，有效过滤了无关网站，减少了网站爬取数据，更大程度上定位到有用信息的爬取，既提高了爬取效率，减少了无用的杂质数据，进而降低了对存储空间的要求，又大大减少了对带宽的占用。

技术领域

本发明涉及互联网技术领域，尤其涉及一种网页爬取方法和装置。

背景技术

随着网络信息技术的迅猛发展，网站上的大数据正呈指数级形式飞速增长，网页已经成为海量信息的载体。现有技术中，通常采用网络爬虫来抓取网站数据的方式来采集网页中的信息。

传统的网页爬取方案抓取网站数据时，采用全部爬取方式，爬取的杂质数据通常是有效数据的十倍以上，既大大增加了对存储空间的要求，也为用户后期数据提取增加了难度。特别是网页中包含大量与主题无关的网站链接，对网页中所有的网站链接进行爬取时，既抓取了大量无用的杂质数据，又占用了大量的带宽资源，因此对带宽要求较高。

发明内容

有鉴于此，本发明的目的在于提供一种网页爬取方法和装置，以解决传统的网页爬取方案对存储空间和带宽的要求较高的技术问题。

本发明解决上述技术问题所采用的技术方案如下：

根据本发明的一个方面，提供的一种网页爬取方法，包括以下步骤：

配置爬取任务和爬取策略；所述爬取任务包括目标网站，所述爬取策略包括URL限制策略；

根据所述目标网站生成爬取列表；

依次爬取所述爬取列表中目标网站的网页，获取所述网页中的网站链接；

根据所述URL限制策略过滤所述网站链接，以滤除所述网站链接中的无效链接，并将过滤后剩余的网站链接作为目标网站的链接加入所述爬取列表中以供后续爬取。

可选地，所述URL限制策略包括指定URL只执行一次爬取和/或指定URL每隔预设时长执行一次爬取。

可选地，所述爬取策略还包括频率限制策略，所述依次爬取所述爬取列表中目标网站的网页包括：根据所述频率限制策略以不同的频率爬取所述目标网站的网页中不同的内容。

可选地，所述爬取策略还包括数量限制策略，所述依次爬取所述爬取列表中目标网站的网页包括：根据所述数量限制策略爬取所述目标网站的网页中预设数量的指定内容。

可选地，所述爬取任务还包括任务每天启停时间、任务爬取深度和任务每天循环次数及循环间隔时间中的至少一种。