[发明专利]一种利用云端进行并发采集的爬虫实现方法在审

专利信息
申请号: 201610853399.7 申请日: 2016-09-27
公开(公告)号: CN106657228A 公开(公告)日: 2017-05-10
发明(设计)人: 王洪添;张裕超 申请(专利权)人: 山东浪潮云服务信息科技有限公司
主分类号: H04L29/08 分类号: H04L29/08;G06F17/30
代理公司: 济南信达专利事务所有限公司37100 代理人: 孟峣
地址: 250100 山东省济南市高*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种利用云端进行并发采集的爬虫实现方法,包括爬虫端和若干云节点服务端,爬虫端能够定时检查云端的状态,并选择云端进行任务发送;根据云端状态进行实时配置同步;根据云端已下载网页数,择机进行网页收取;通过本地缓存和数据实现异常容错处理,保证网页不丢失。该利用云端进行并发采集的爬虫实现方法与现有技术相比,通过爬虫端批次发送下载任务、批次收取下载网页,提高了传输效率,将爬虫和云端交互带来的影响降到最低。通过本地和数据库记录下载信息,实现了下载内容的异常容错处理和事物控制,保证下载任务被执行,减少传统爬虫中容易出现的网页丢失情况。
搜索关键词: 一种 利用 云端 进行 并发 采集 爬虫 实现 方法
【主权项】:
一种利用云端进行并发采集的爬虫实现方法,其特征在于,包括爬虫端和若干云节点服务端,其实现过程为:1)爬虫端通过云节点服务端进行采集,爬虫端将采集任务批次发送到云节点服务端,通过校验、请求处理实现云节点服务端任务分发;2)云节点服务端进行状态检测,实时检测云节点服务端的可用状态以及任务队列和下载队列排队情况,并根据云节点服务端情况选择是否发送任务或者是否立刻收取网页;3)爬虫端将本地数据库的配置同步至云节点服务端;4)云节点服务端网页收取,爬虫端向云节点服务端请求已经下载的页面,云节点服务端批量返回已经下载的页面;5)爬虫端实现下载任务的异常容错处理和事物控制,通过本地缓存和数据实现异常容错处理,保证网页不丢失。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东浪潮云服务信息科技有限公司,未经山东浪潮云服务信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610853399.7/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top