[发明专利]基于Docker的数据采集方法、装置及计算机设备、存储介质在审
申请号: | 201910548256.9 | 申请日: | 2019-06-24 |
公开(公告)号: | CN110457555A | 公开(公告)日: | 2019-11-15 |
发明(设计)人: | 林岳鹏;吕东玉;张川 | 申请(专利权)人: | 平安国际智慧城市科技股份有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F9/455 |
代理公司: | 44385 深圳市世联合知识产权代理有限公司 | 代理人: | 汪琳琳<国际申请>=<国际公布>=<进入 |
地址: | 518000广东省深圳市前海深港合*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 程序容器 数据采集 云服务器 发送 计算机设备 系统稳定性 存储介质 获取数据 任务发送 任务执行 系统资源 自动部署 大数据 隔离性 采集 占用 | ||
本发明属于大数据技术领域,涉及一种基于Docker的数据采集方法、装置及计算机设备、存储介质,所述方法包括获取数据采集任务,根据所述数据采集任务向至少一个云服务器发送爬取程序容器的镜像;根据所述爬取程序容器的镜像在每个所述云服务器中生成至少一个爬取程序容器,所述爬取程序容器中运行爬取程序成为爬取节点;将所述数据采集任务发送至所述爬取节点中,并通过所述爬取节点对所述数据采集任务执行数据采集操作。本发明提供的方案通过Docker技术,可将爬取程序容器镜像发送至至少一个云服务器,且同一云服务器中可自动部署多个爬取节点,占用系统资源少,可有效利用云服务器资源,实现爬取节点按需增加,各爬取节点之间隔离性强,系统稳定性好。
技术领域
本发明实施例属于大数据技术领域,尤其涉及一种基于Docker的数据采集方法、装置及计算机设备、存储介质。
背景技术
在大数据时代,在以数据为工作基础的系统中,常常需要采集大量的原始数据,这些原始数据的一部分来自于互联网,对于互联网这部分数据,现有的数据采集过程一般是通过云服务器中的爬取节点进行数据采集,面对大规模采集需求,现有的数据采集一般通过横向增强的方式,即增加云服务器数量来达到增加爬取节点来达到大规模采集的目的,或者通过在爬虫节点上使用多线程调度的方式并发运行爬虫程序来达到大规模采集的目的。
然而,对于横向增强的方式,一方面这种方式极大地浪费了云服务器资源,另一方面云服务器资源有限,限制了横向增强的规模,无法有效实现爬取节点的按需增加;而对于在爬虫节点上使用多线程调度的方式,多线程爬虫线程的隔离性较差,容易出现阻塞的问题,系统的稳定性差。
发明内容
有鉴于此,本发明实施例提供一种基于Docker的数据采集方法,以解决横向增强的方式增加爬取节点导致浪费云服务器资源,且容易因云服务器资源有限而导致规模受限,无法有效实现爬取节点的按需增加的问题,以及解决采用爬虫节点上使用多线程调度的方式进行数据采集时多线程爬虫线程的隔离性较差,容易出现阻塞、系统的稳定性差的问题。此外,本发明实施例还提供了能够解决前述问题的基于Docker的数据采集装置、计算机设备及计算机可读存储介质。
具体的,本发明实施例采用了如下的技术方案。
第一方面,本发明实施例提供一种基于Docker的数据采集方法,包括:
获取数据采集任务,根据所述数据采集任务向至少一个云服务器发送爬取程序容器的镜像;
根据所述爬取程序容器的镜像在每个所述云服务器中生成至少一个爬取程序容器,所述爬取程序容器中运行爬取程序成为爬取节点;
将所述数据采集任务发送至所述爬取节点中,并通过所述爬取节点对所述数据采集任务执行数据采集操作。
作为本发明可实施的方式,在所述通过所述爬取节点对所述数据采集任务执行数据采集操作的步骤之后,所述方法还包括:
实时获取新的数据采集任务,根据所述新的数据采集任务和当前正在进行数据采集的数据采集任务实时调整所述爬取节点的数量。
作为本发明可实施的方式,在所述根据所述爬取程序容器的镜像在每个所述云服务器中生成至少一个爬取程序容器的步骤之后,所述方法还包括:
生成容器挂载目录;
获取容器配置文件并将所述容器配置文件存储至所述挂载目录中;
将所述容器配置文件发送至所述爬取程序容器中,对所述爬取节点的参数进行动态调整。
作为本发明可实施的方式,在所述通过所述爬取节点对所述数据采集任务执行数据采集操作的步骤之后,所述方法还包括:
当任意一个所述爬取节点执行数据采集操作异常时,在至少一个所述云服务器中生成至少一个新的爬取节点,通过所述新的爬取节点接替异常的爬取节点执行数据采集操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安国际智慧城市科技股份有限公司,未经平安国际智慧城市科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910548256.9/2.html,转载请声明来源钻瓜专利网。