[发明专利]基于多客户端集群协作的数据下载系统及下载方法有效
申请号: | 201510961162.6 | 申请日: | 2015-12-21 |
公开(公告)号: | CN105391805A | 公开(公告)日: | 2016-03-09 |
发明(设计)人: | 李俊;张作职 | 申请(专利权)人: | 天津海量信息技术有限公司 |
主分类号: | H04L29/08 | 分类号: | H04L29/08 |
代理公司: | 天津市尚仪知识产权代理事务所(普通合伙) 12217 | 代理人: | 王山 |
地址: | 300020 天津市和*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 客户端 集群 协作 数据 下载 系统 方法 | ||
技术领域
本发明涉及互联网信息采集的技术领域,具体说是一种基于多客户端集群协作的数据下载系统及下载方法。
背景技术
进入21世纪,信息的爆炸式增长带了数据的海量化,面对规模日益庞大的数据量,全球知名咨询公司麦肯锡提出“大数据”时代说,麦肯锡称:数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素,人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。
而网络信息数据采集是“大数据”战略的基础,搭建采集海量数据的架构体系、做到所见即所得的无阻拦式采集、满足在有限时间内采集更多的数据,都必须使数据得到高效、及时而有效的采集,因而就需要维持一定频率的下载,而一般网站对访问有一定的限制,往往会限制一定时间内单IP的访问次数,如超过规定的访问次数则不再提供有效数据,这样在数据持续高效稳定采集与网站的访问限制之间就会存在矛盾,因而传统的数据访问下载方法不适于维持数据稳定采集。
发明内容
本发明要解决的技术问题是提供一种基于多客户端集群协作的数据下载系统及下载方法。
本发明为解决公知技术中存在的技术问题所采取的技术方案是:
本发明的基于多客户端集群协作的数据下载系统,包括任务生成服务器、任务分发服务器及下载客户端;其中任务生成服务器与任务分发服务器通过网络数据连接,将下载任务提供给任务分发服务器;任务分发服务器通过网络同时数据连接多台下载客户端,并将下载任务转发给下载客户端;下载客户端接收任务分发服务器的任务,按下载任务进行下载并将下载结果返回任务分发服务器。
本发明还可以采用以下技术措施:
所述的同一任务分发服务器连接的多台下载客户端构成下载客户端集群,任务分发服务器根据下载任务协调选择下载客户端。
所述的下载客户端提供下载频度控制。
本发明的基于多客户端集群协作的数据下载方法,任务生成服务器将下载任务发送至任务分发服务器;任务分发服务器按照下载任务协调选择下载客户端;下载客户端接收到下载任务后,先判断该下载任务是否为空,再将该任务对应资源进行URL加工处理,然后进行下载,下载完成后判断下载任务是否成功,在下载成功时分析并提取下载到的数据所对应链接,分析下载到的数据中的嵌入式文件,将下载结果返回任务分发服务器,等待下载到的数据被取回;任务分发服务器从各下载客户端取回原下载任务对应的数据。
本发明具有的优点和积极效果是:
本发明的基于多客户端集群协作的数据下载系统和下载方法中,任务生成服务器向任务分发服务器提供下载任务,任务分发服务器协调具体下载任务并交由多个下载客户端完成下载,而下载客户端功能简单,只需提供基本的网络下载及频度控制功能,资源占用小,可充分利用现有的云计算资源,部署由多台下载客户端组成下载集群提供下载服务,并且可部署在不同区域,不同云,下载客户端可以水平扩展且任意扩展,从而达到最大合理化的利用稀缺的IP资源。
附图说明
图1是本发明的基于多客户端集群协作的数据下载系统的架构示意图;
图2是本发明的基于多客户端集群协作的数据下载方法中下载客户端的工作流程示意图。
具体实施方式
如图1所示,本发明的基于多客户端集群协作的数据下载系统,包括任务生成服务器、任务分发服务器及下载客户端;其中任务生成服务器与任务分发服务器通过网络数据连接,将下载任务提供给任务分发服务器;任务分发服务器通过网络同时数据连接多台下载客户端,并将下载任务转发给下载客户端;下载客户端接收任务分发服务器的任务,按下载任务进行下载并将下载结果返回任务分发服务器。从而通过由多台下载客户端组成的下载客户端集群对要收集数据的网站上的新闻、BBS、BLOG、微博等数据资源进行实时采集,以满足数据采集的高效和及时。
同一任务分发服务器连接的多台下载客户端构成下载客户端集群,任务分发服务器根据下载任务协调选择下载客户端。
下载客户端提供下载频度控制,从而避免下载客户端的单一IP超出网站的访问或下载控制频率,保证数据下载的顺利进行。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津海量信息技术有限公司,未经天津海量信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510961162.6/2.html,转载请声明来源钻瓜专利网。