[发明专利]通过对网络资源调度提高网络爬虫抓取效率的方法和装置有效
申请号: | 201610240607.6 | 申请日: | 2016-04-19 |
公开(公告)号: | CN105681478B | 公开(公告)日: | 2019-01-22 |
发明(设计)人: | 陈俊良;曾琰;屈银川;黄志杰 | 申请(专利权)人: | 北京高地信息技术有限公司 |
主分类号: | H04L29/08 | 分类号: | H04L29/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100055 北京市西城*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 通过 网络资源 调度 提高 网络 爬虫 抓取 效率 方法 装置 | ||
公开了通过对网络资源调度提高网络爬虫抓取效率的方法和装置。其通过从RMI远程爬虫客户端接收请求参数,并进行封装识别;把从RMI远程爬虫客户端接收到的请求参数发送到RMI服务器内部逻辑;对各个网络线路进行优选,得到畅通的网络线路;通过畅通的网络线路,根据需求,进行HTTP网络资源封装处理,得到封装好的网络资源;通过RMI远程接口把封装好的网络资源发送给RMI远程爬虫客户端的请求端;RMI远程爬虫客户端通过其请求端接收封装好的网络资源后,对网络线路和HTTP请求进行设置,并进行数据的爬取和解析。其能够使爬虫数据的抓取效率提高,不需要人工干预。实现网络线路的负载均衡,并自动识别目标网站的封锁、线路优选和HTTP请求参数的设置来自动解除封锁。
技术领域
本发明涉及计算机网络技术领域,特别是涉及一种通过对网络资源调度提高网络爬虫抓取效率的方法和装置。
背景技术
因为搜索引擎的流行,网络爬虫已经成了很普及网络技术,除了专门做搜索的Google,Yahoo,微软必应,百度等等,几乎每个大型门户网站都有自己的搜索引擎,现在的爬虫工具特别多,已知的开源爬虫框架就有几十种不等。一般来说,企业级别的网络爬虫一般是部署在集群上面,通过不同的网络线路出口,并行地从互联网上下载所需的信息。
各个网站为了保护自己的网站不被恶意攻击,都会有自己的请求和响应策略。一般来说,目标网站则根据访问频率,浏览网页速度,cookies等因素来封锁线路,同时也会根据账户登录状态,输入验证码是否正确,Flash封装,Ajax混淆,JS加密,图片验证,CSS混淆等技术来保护自己的网站。然而这样一些因素会导致爬虫不能正常爬取。其中,最主要的因素就是网络线路的封锁,很多目标网站会对在一段时间频繁请求的爬虫采取完全封锁的策略。这样便误封锁了一部分爬虫的正常爬取。人工的监控成本也很大,不知道线路何时被封锁了,何时被解封,以至于不能迅速反应。而数据的抓取是一个长期连续的过程,如不能及时地应对目标网站的封锁策略,并立即采取应对策略,那么爬虫的抓取质量和效率则是很低的。
发明内容
有鉴于此,本发明提供一种通过对网络资源调度提高网络爬虫抓取效率的方法和装置,其能够使爬虫数据的抓取效率大大提高,并且不需要人工干预。实现网络线路的负载均衡,并自动识别目标网站的封锁、线路优选和HTTP请求参数的设置来自动解除封锁,从而更加适于实用。
为了达到上述第一个目的,本发明提供的一种通过对网络资源调度来提高网络爬虫抓取效率的方法技术方案如下:
本发明提供的通过网络爬虫抓取网络数据的方法包括以下步骤:
从RMI远程爬虫客户端接收请求参数,并进行封装识别;
把从RMI远程爬虫客户端接收到的请求参数发送到RMI服务器内部逻辑;
对各个网络线路进行优选,得到畅通的网络线路;
通过所述畅通的网络线路,根据需求,进行HTTP网络资源封装处理,得到封装好的网络资源;
通过RMI远程接口把所述封装好的网络资源发送给所述RMI远程爬虫客户端的请求端;
所述RMI远程爬虫客户端通过其请求端接收所述封装好的网络资源后,对网络线路和HTTP请求进行设置,并进行数据的爬取和解析。
本发明提供的一种通过对网络资源调度提高网络爬虫抓取效率的方法和装置还可采用以下技术措施进一步实现。
作为优选,所述对各个网络线路进行优选,得到畅通的网络线路包括根据当前的爬虫调用复杂情况、网络线路的带宽、各网络线路的封锁情况,综合优选出负载小、延迟低、带宽宽且未被封锁的线路作为所述畅通的网络线路。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京高地信息技术有限公司,未经北京高地信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610240607.6/2.html,转载请声明来源钻瓜专利网。