[发明专利]基于协调服务的分布式互联的数据采集方法与装置在审
申请号: | 201911399135.9 | 申请日: | 2019-12-30 |
公开(公告)号: | CN111130900A | 公开(公告)日: | 2020-05-08 |
发明(设计)人: | 张炎红;贠瑞峰;刘彬彬;刘粉香;彭翔 | 申请(专利权)人: | 智慧神州(北京)科技有限公司 |
主分类号: | H04L12/24 | 分类号: | H04L12/24;H04L29/08 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 霍文娟 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 协调 服务 分布式 数据 采集 方法 装置 | ||
1.一种基于协调服务的分布式互联的数据采集方法,其特征在于,包括:
确定采集数据的类型;
根据所述采集数据的类型配置采集规则;
根据所述采集规则确定采集程序;
根据所述采集规则和确定的所述采集程序采集数据。
2.根据权利要求1所述的方法,其特征在于,确定采集数据的类型之前,所述采集方法还包括:
启动协调服务,所述协调服务用于管理所述采集程序的采集配置信息以及所述采集程序的采集状态信息;
启动任务管理、采集管理、配置管理,所述配置管理包括配置规则;
根据所述配置规则,启动数据采集。
3.根据权利要求2所述的方法,其特征在于,所述任务管理包括任务列表,所述采集管理还包括服务器配置,所述配置管理包括代理配置和请求配置。
4.根据权利要求2所述的方法,其特征在于,所述协调服务管理所述采集状态信息,包括:
所述数据采集在启动时会向zookeeper提交所述数据采集所用的采集程序所在主机的ip地址信息以及程序监听的端口号信息;
将所述ip地址信息和所述端口号信息注册为临时节点,在注册服务与所述zookeeper连接中断时所述临时节点消失,以监控所述采集程序的采集状态信息。
5.根据权利要求4所述的方法,其特征在于,所述启动协调服务,还包括:所述采集程序提供所述采集状态信息的查询接口,以查询所述程序所在服务器的cpu以及内存。
6.根据权利要求3所述的方法,其特征在于,在根据所述采集规则和确定的所述采集程序采集数据之后,所述采集方法还包括:
采集服从所述协调服务中获取分配到的所述采集规则;
根据所述采集规则初始化所述采集配置信息,且从所述采集配置信息指定的消息队列中获取待抓取的URL;
根据配置指定的请求和所述代理配置向所述URL发送请求;
所述请求发送成功后,获取响应内容,并对所述响应内容进行分析;
在所述响应内容为正文的情况下,根据所述配置进行所述响应内容的提取并存储,所述正文包含要提取的所述响应内容;
在所述响应内容不是所述正文的情况下,提取所述响应内容中包含的所述URL,经过排重后将未抓取的所述URL放入消息队列中,等待下次抓取。
7.一种基于协调服务的分布式互联的采集装置,其特征在于,包括:
第一确定单元,用于确定采集数据的类型;
配置单元,用于根据所述采集数据的类型配置采集规则;
第二确定单元,用于根据所述采集规则确定采集程序;
第三确定单元,用于根据所述采集规则和确定的所述采集程序采集数据。
8.根据权利要求7所述的装置,其特征在于,所述采集装置还包括:
第一控制单元,用于在确定采集数据的类型之前,启动协调服务,所述协调服务用于管理所述采集程序的采集配置信息以及所述采集程序的采集状态信息;
第二控制单元,用于启动任务管理、采集管理、配置管理,所述配置管理包括配置规则;
第三控制单元,用于根据所述配置规则,启动数据采集。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行权利要求1至6中任意一项所述的方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至6中任意一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于智慧神州(北京)科技有限公司,未经智慧神州(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911399135.9/1.html,转载请声明来源钻瓜专利网。