[发明专利]一种通用型分布式爬虫调度系统有效
申请号: | 201510183709.4 | 申请日: | 2015-04-17 |
公开(公告)号: | CN104820680B | 公开(公告)日: | 2018-04-06 |
发明(设计)人: | 吴骏;王涛;刘勇;陈嘉伟;吴和生;谢俊元 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙)32249 | 代理人: | 陈建和 |
地址: | 210093 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种通用型分布式爬虫调度系统,包括控制器和爬虫器,控制器包含显示模块和调度模块,其中显示模块用于查看各种任务进展信息、日志以及触发对爬虫器的控制,调度模块包含通信区、维持区、数据保持区、数据缓存区;爬虫器包含爬取模块和调度模块,其中爬取模块实现具体的爬虫功能;调度模块包含通信区、维持区、数据保持区、数据缓存区;调度模块中的通信区之间采用Socket长连接异步通信方式完成互联;针对大数据时代获取数据效率低,存在丢失等问题,提出普适型、通用型的分布式爬虫系统框架,在保证爬取过程高速、有效、准确的同时兼容多样化的爬取策略。 | ||
搜索关键词: | 一种 通用型 分布式 爬虫 调度 系统 | ||
【主权项】:
一种通用型分布式爬虫调度系统,其特征是包括控制器和爬虫器,控制器包含显示模块和调度模块,其中显示模块用于查看各种任务进展信息、日志以及触发对爬虫器的控制,调度模块包含通信区、维持区、数据保持区、数据缓存区;爬虫器包含爬取模块和调度模块,其中爬取模块实现具体的爬虫功能;调度模块包含通信区、维持区、数据保持区、数据缓存区;调度模块中的通信区之间采用Socket长连接异步通信方式完成互联,既保证数据可靠传输,或以系统运行过程中按需要以热启动的方式添加新的爬虫器,具有扩展性;调度模块中的维持区,通过定时采样过去一段时间内爬虫器的状态信息以决定未来一段时间内将要发放给维持区节点的任务数量及类别,采集的信息包括该时间段爬虫器处理的任务数及成功处理任务率;调度模块中通过采用双层过滤法即持久过滤器和临时过滤器保证信息可靠且没有重复爬取;其中,在将数据加入数据保持区时,需要保证持久过滤器和临时过滤器其中均不含有该数据,数据加入数据保持区后,需要在临时过滤器中标注该任务已存在,待爬虫器完成爬取任务后,持久过滤器才将该任务标注为已存在;调度模块中的数据缓存区通过将已发送的相关信息进行缓存,在相应报文得到响应后再将相关信息移出缓存区,这保证信息有效传输的同时保证所有的任务都会被执行,未得到响应的任务,其相应数据会在一段时间后返回数据保持区,其中一次通信的完成包含双方将各发出一次报文;调度模块中的通信区Socket长连接异步通信方式,通过自定义一组完备的通信命令报文及数据传输报文保证控制器和爬虫器之间有效地沟通,报文包含报文长度域、报文流水号域、报文处理方式域、URL属性标志域、URL属性域;上述的通信报文协议,采用反射机制在传输属性中提取相应属性构建相应的URL对象。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510183709.4/,转载请声明来源钻瓜专利网。
- 上一篇:页面展示方法和装置
- 下一篇:一种判断版本号大小的方法及装置