[发明专利]处理爬取网页的方法和装置有效
申请号: | 201611089740.2 | 申请日: | 2016-11-30 |
公开(公告)号: | CN108132948B | 公开(公告)日: | 2021-02-26 |
发明(设计)人: | 赵一飞 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 韩建伟;张永明 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 处理 网页 方法 装置 | ||
本发明公开了一种处理爬取网页的方法和装置。其中,该方法包括:确定是否存在待验证的网页的标识信息;根据待验证的网页的标识信息爬取得到网页页面之后,校验爬取得到的网页页面;在爬取得到的网页页面校验通过的情况下,确定待验证的网页爬取成功;将爬取成功的待验证的网页的标识信息保存至过滤器服务。本发明解决了现有技术中在防止爬虫系统重复爬取网页时,爬取内容校验不通过但网页无法被再次爬取的技术问题。
技术领域
本发明涉及信息技术领域,具体而言,涉及一种处理爬取网页的方法和装置。
背景技术
在互联网领域,网络爬虫通过分析爬取的网页内容,获取指向其他网页的标识信息,例如网页的URL,从而发现并爬取其他网页,其中,一个网页的URL通常被许多不同的网页引用,为了避免爬虫不断的访问相同的网页,爬虫系统要对待爬取的网页URL做去重工作。特别是针对内容不会变化的网页,比如记录新闻内容的网页,爬虫系统只需爬取一次,之后永远不再爬取。
为了避免重复爬取网页,爬虫系统中经常会使用过滤器,例如布隆过滤器,布隆过滤器具有极高空间效率和时间效率,可以用于检索一个元素是否在一个集合中,但是却无法删除一个集合中的特定值。现有的分布式爬虫系统就是通过使用布隆过滤器服务判断一个网页URL是否已经被爬取过。在爬虫准备爬取一个只需爬取一次的网页前,首先检测该网页URL是否已经包含在布隆过滤器所记录的网址集合中,若存在,则认为该网页已经被爬取过了,不再进行爬取;否则将该网页的URL记录到布隆过滤器集合中,防止任意爬虫再次爬取该网页,然后再由该爬虫尝试爬取该网页。但是上述现有技术的防止重复爬取机制存在以下弊端:由于设备、网络、待爬取网站等都有可能出现故障,可能会出现爬虫不能正常的获取到一个网页或者获取到的网页内容有误的情况,而这时该网页的URL已经记录在了布隆过滤器服务中,以后对该网页的爬取都将无法通过布隆过滤器服务的检查,事实上造成了网页的漏爬。通过下面的例子可以更为清楚的说明上述现有技术的不足:假设分布式爬虫系统准备首次爬取一个网页,并且该网页的内容不会更新,只需爬取一次,爬虫系统首先调用布隆过滤器服务查询发现该网页的URL未被爬取过,于是将该网页的URL记录到布隆过滤器服务中,之后爬虫系统将该网页的URL交由某个爬虫客户端具体负责爬取,在接受爬取任务后,爬虫客户端出现故障崩溃,未能将爬取结果提交到爬虫系统,由于该网页的URL已经被记录在布隆过滤器中,虽然爬虫系统未能得到对应的网页的内容,但是之后对这个网页的URL的爬取都会因为布隆过滤器中已存在该网页的URL而放弃,并且布隆过滤器中的记录无法删除,最终导致无法爬取到该网页的内容。
针对现有技术中,在防止爬虫系统重复爬取网页时,爬取内容校验不通过但网页无法被再次爬取的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种处理爬取网页的方法和装置,以至少解决现有技术中在防止爬虫系统重复爬取网页时,爬取内容校验不通过但网页无法被再次爬取的技术问题。
根据本发明实施例的一个方面,提供了一种处理爬取网页的方法,包括:确定是否存在待验证的网页的标识信息;根据待验证的网页的标识信息爬取得到网页页面之后,校验爬取得到的网页页面;在爬取得到的网页页面校验通过的情况下,确定待验证的网页爬取成功;将爬取成功的待验证的网页的标识信息保存至过滤器服务。
根据本发明实施例的另一方面,还提供了一种处理爬取网页的装置,包括:确定模块,用于确定是否存在待验证的网页的标识信息;校验模块,用于根据待验证的网页的标识信息爬取得到网页页面之后,校验爬取得到的网页页面;第二确定模块,用于在爬取得到的网页页面校验通过的情况下,确定待验证的网页爬取成功;保存模块,用于将爬取成功的待验证的网页的标识信息保存至过滤器服务。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611089740.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:实体挖掘系统和方法
- 下一篇:数据库集群中数据迁移的方法及装置