[发明专利]一种爬虫自动化部署方法、系统、计算机设备、及介质在审
申请号: | 202210791022.9 | 申请日: | 2022-07-05 |
公开(公告)号: | CN115292570A | 公开(公告)日: | 2022-11-04 |
发明(设计)人: | 李亚平;翟锦修;郑泽标 | 申请(专利权)人: | 广州鑫景信息科技服务有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F9/445 |
代理公司: | 广州立诚聚凡专利代理事务所(普通合伙) 44905 | 代理人: | 吴婧 |
地址: | 510000 广东省广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 爬虫 自动化 部署 方法 系统 计算机 设备 介质 | ||
本发明涉及一种爬虫自动化部署方法、系统、计算机设备、及介质,其技术方案要点是:所述方法包括:构建爬虫项目;将运行爬虫项目所需的第一文件清单和用于构建第一文件清单内的软件环境的代码文件存储在爬虫项目中;根据所述爬虫项目在对应的服务器上查询docker容器;判断对应的docker容器中是否缺少运行第一文件清单中的软件环境,若为是,则根据对应软件环境的代码文件执行对应的运行代码;根据所述爬虫项目在对应的服务器上部署爬虫程序;本申请具有能够自动部署运行爬虫程序的优点。
技术领域
本发明涉及计算机技术领域,更具体地说,它涉及一种爬虫自动化部署方法、系统、计算机设备、及介质。
背景技术
在采集数据的业务和需求的时候,当有一个新的爬虫需求业务需要对相关的数据进行抓取,在开发完新的爬虫后,都需要手动在所有的服务器上操作部署运行爬虫程序;而当运行爬虫的服务器数量足够多,多台服务器手动部署重复劳动力,浪费时间并且影响效率,因此还有待改进的空间。
发明内容
针对现有技术存在的不足,本发明的目的在于提供一种爬虫自动化部署方法、系统、计算机设备、及介质,具有能够自动部署运行爬虫程序的优点。
本发明的上述技术目的是通过以下技术方案得以实现的:一种爬虫自动化部署方法,包括:
构建爬虫项目;将运行爬虫项目所需的第一文件清单和用于构建第一文件清单内的软件环境的代码文件存储在爬虫项目中;
根据所述爬虫项目在对应的服务器上查询docker容器;
判断对应的docker容器中是否缺少运行第一文件清单中的软件环境,若为是,则根据对应软件环境的代码文件执行对应的运行代码;
根据所述爬虫项目在对应的服务器上部署爬虫程序。
可选的,所述构建爬虫项目包括:
设置需要运行爬虫程序的服务器ID;
根据所述服务器ID设置爬虫程序的运行方式和抓取内容;
将服务器ID、爬虫程序的运行方式和抓取内容相关联得到爬虫项目。
可选的,所述根据所述爬虫项目在对应的服务器上查询docker容器,包括:
根据所述爬虫项目确定部署爬虫程序的服务器ID;
依次在服务器ID对应的每台服务器上运行dockerps-a命令查看对应服务器运行的docker容器。
可选的,所述判断对应的docker容器中是否缺少运行第一文件清单中的软件环境,包括:
获取对应的docker容器内的第二文件清单;
将第二文件清单与第一文件清单进行比对;判断第二文件清单内是否缺少第一文件清单内的至少一文件;若为是,则判定对应的docker容器中缺少运行第一文件清单中的软件环境。
可选的,所述根据对应软件环境的代码文件执行对应的运行代码,包括:
在所述代码文件中查询对应软件的docker镜像地址;
根据对应软件的docker镜像地址拉取对应软件的镜像;
执行对应软件的docker运行代码。
可选的,在根据所述爬虫项目在对应的服务器上部署爬虫程序之后,还包括:
定时推送爬虫程序运行状态,生成对应爬虫程序的爬虫日志;
对所述爬虫日志进行分级管理,将出现错误等级的爬虫程序推送给工作沟通工具;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州鑫景信息科技服务有限公司,未经广州鑫景信息科技服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210791022.9/2.html,转载请声明来源钻瓜专利网。