[发明专利]基于协调服务的分布式互联的数据采集方法与装置在审
申请号: | 201911399135.9 | 申请日: | 2019-12-30 |
公开(公告)号: | CN111130900A | 公开(公告)日: | 2020-05-08 |
发明(设计)人: | 张炎红;贠瑞峰;刘彬彬;刘粉香;彭翔 | 申请(专利权)人: | 智慧神州(北京)科技有限公司 |
主分类号: | H04L12/24 | 分类号: | H04L12/24;H04L29/08 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 霍文娟 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 协调 服务 分布式 数据 采集 方法 装置 | ||
本申请提供了一种基于协调服务的分布式互联的数据采集方法、装置、存储介质与处理器。该数据采集方法包括:确定采集数据的类型;根据采集数据的类型配置采集规则;根据采集规则确定采集程序;根据采集规则和确定的采集程序采集数据这样就可以支持分布式的互联采集,数据采集的复杂度降低,无相关基础的人员也可以配置相关的采集程序,使用的范围扩大,可以及时监控采集程序的状态,避免了延迟未发现的情况,对采集程序进行管理监控,定向管理和控制采集程序,降低了成本,提高了采集的效率。
技术领域
本申请涉及数据挖掘,具体而言,涉及一种基于协调服务的分布式互联的数据采集方法、装置、存储介质与处理器。
背景技术
目前,网络上流行的开源采集程序如webmagic,nutche等,对分布式的支持不足,采集策略较为复杂,数据采集复杂度高,效率低;采集需要进行编码,非开发人员无法使用;没有统一的管理监控平台,对采集程序无法进行管理监控;目前大部分分布式爬虫基于消息队列创建,爬虫功能不统一,无法管理定向采集程序;无法动态控制采集程序,人工成本高。
在背景技术部分中公开的以上信息只是用来加强对本文所描述技术的背景技术的理解,因此,背景技术中可能包含某些信息,这些信息对于本领域技术人员来说并未形成在本国已知的现有技术。
发明内容
本申请的主要目的在于提供一种基于协调服务的分布式互联的数据采集方法、装置、存储介质与处理器,以解决现有技术中开源采集程序数据采集效率较低的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种基于协调服务的分布式互联的数据采集方法,该数据采集方法包括:确定采集数据的类型;根据所述采集数据的类型配置采集规则;根据所述采集规则确定采集程序;根据所述采集规则和确定的所述采集程序采集数据。
进一步地,确定采集数据的类型之前,所述采集方法还包括:启动协调服务,所述协调服务用于管理所述采集程序的采集配置信息以及所述采集程序的采集状态信息;启动任务管理、采集管理、配置管理,所述配置管理包括配置规则;根据所述配置规则,启动数据采集。
进一步地,所述任务管理包括任务列表,所述采集管理还包括服务器配置,所述配置管理包括代理配置和请求配置。
进一步地,所述协调服务管理所述采集状态信息,包括:所述数据采集在启动时会向zookeeper提交所述数据采集所用的采集程序所在主机的ip地址信息以及程序监听的端口号信息;将所述ip地址信息和所述端口号信息注册为临时节点,在注册服务与所述zookeeper连接中断时所述临时节点消失,以监控所述采集程序的采集状态信息。
进一步地,所述启动协调服务,还包括:所述采集程序提供所述采集状态信息的查询接口,以查询所述程序所在服务器的cpu以及内存。
进一步地,在根据所述采集规则和确定的所述采集程序采集数据之后,所述采集方法还包括:采集服从所述协调服务中获取分配到的所述采集规则;根据所述采集规则初始化所述采集配置信息,且从所述采集配置信息指定的消息队列中获取待抓取的URL;根据配置指定的请求和所述代理配置向所述URL发送请求;所述请求发送成功后,获取响应内容,并对所述响应内容进行分析;在所述响应内容为正文的情况下,根据所述配置进行所述响应内容的提取并存储,所述正文包含要提取的所述响应内容;在所述响应内容不是所述正文的情况下,提取所述响应内容中包含的所述URL,经过排重后将未抓取的所述URL放入消息队列中,等待下次抓取。
根据本申请的另一方面,提供了一种基于协调服务的分布式互联的采集装置,该采集装置包括:第一确定单元,用于确定采集数据的类型;配置单元,用于根据所述采集数据的类型配置采集规则;第二确定单元,用于根据所述采集规则确定采集程序;第三确定单元,用于根据所述采集规则和确定的所述采集程序采集数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于智慧神州(北京)科技有限公司,未经智慧神州(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911399135.9/2.html,转载请声明来源钻瓜专利网。