[发明专利]一种爬虫自动化部署方法、系统、计算机设备、及介质在审
申请号: | 202210791022.9 | 申请日: | 2022-07-05 |
公开(公告)号: | CN115292570A | 公开(公告)日: | 2022-11-04 |
发明(设计)人: | 李亚平;翟锦修;郑泽标 | 申请(专利权)人: | 广州鑫景信息科技服务有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F9/445 |
代理公司: | 广州立诚聚凡专利代理事务所(普通合伙) 44905 | 代理人: | 吴婧 |
地址: | 510000 广东省广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 爬虫 自动化 部署 方法 系统 计算机 设备 介质 | ||
1.一种爬虫自动化部署方法,其特征在于,包括:
构建爬虫项目;将运行爬虫项目所需的第一文件清单和用于构建第一文件清单内的软件环境的代码文件存储在爬虫项目中;
根据所述爬虫项目在对应的服务器上查询docker容器;
判断对应的docker容器中是否缺少运行第一文件清单中的软件环境,若为是,则根据对应软件环境的代码文件执行对应的运行代码;
根据所述爬虫项目在对应的服务器上部署爬虫程序。
2.根据权利要求1所述的方法,其特征在于,所述构建爬虫项目包括:
设置需要运行爬虫程序的服务器ID;
根据所述服务器ID设置爬虫程序的运行方式和抓取内容;
将服务器ID、爬虫程序的运行方式和抓取内容相关联得到爬虫项目。
3.根据权利要求2所述的方法,其特征在于,所述根据所述爬虫项目在对应的服务器上查询docker容器,包括:
根据所述爬虫项目确定部署爬虫程序的服务器ID;
依次在服务器ID对应的每台服务器上运行docker ps-a命令查看对应服务器运行的docker容器。
4.根据权利要求3所述的方法,其特征在于,所述判断对应的docker容器中是否缺少运行第一文件清单中的软件环境,包括:
获取对应的docker容器内的第二文件清单;
将第二文件清单与第一文件清单进行比对;判断第二文件清单内是否缺少第一文件清单内的至少一文件;若为是,则判定对应的docker容器中缺少运行第一文件清单中的软件环境。
5.根据权利要求4所述的方法,其特征在于,所述根据对应软件环境的代码文件执行对应的运行代码,包括:
在所述代码文件中查询对应软件的docker镜像地址;
根据对应软件的docker镜像地址拉取对应软件的镜像;
执行对应软件的docker运行代码。
6.根据权利要求1所述的方法,其特征在于,在根据所述爬虫项目在对应的服务器上部署爬虫程序之后,还包括:
定时推送爬虫程序运行状态,生成对应爬虫程序的爬虫日志;
对所述爬虫日志进行分级管理,将出现错误等级的爬虫程序推送给工作沟通工具;
通过crawler view显示爬虫程序运行状态和爬虫日志。
7.根据权利要求1所述的方法,其特征在于,在根据所述爬虫项目在对应的服务器上部署爬虫程序之后,还包括:
收集服务器的运行参数;
定时推送服务器的运行参数给Pushgetaway;
通过Prometheus定时拉取Pushgetaway获得的服务器的运行参数;
以第一预设时间为间隔对服务器的运行参数进行分析统计,得到服务器当前负载状态;
通过Grafana显示所述服务器当前负载状态。
8.一种爬虫自动化部署系统,其特征在于,包括:
项目构建模块,用于构建爬虫项目;将运行爬虫项目所需的第一文件清单和用于构建第一文件清单内的软件环境的代码文件存储在爬虫项目中;
容器查询模块,用于根据所述爬虫项目在对应的服务器上查询docker容器;
运行环境分析模块,用于判断对应的docker容器中是否缺少运行第一文件清单中的软件环境,若为是,则根据对应软件环境的代码文件执行对应的运行代码;
爬虫部署模块,用于根据所述爬虫项目在对应的服务器上部署爬虫程序。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州鑫景信息科技服务有限公司,未经广州鑫景信息科技服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210791022.9/1.html,转载请声明来源钻瓜专利网。