[发明专利]可动态扩展的分布式爬虫系统、数据处理方法及装置在审
申请号: | 202011598949.8 | 申请日: | 2020-12-29 |
公开(公告)号: | CN112650570A | 公开(公告)日: | 2021-04-13 |
发明(设计)人: | 陈志坚 | 申请(专利权)人: | 百果园技术(新加坡)有限公司 |
主分类号: | G06F9/48 | 分类号: | G06F9/48;G06F9/54;G06F16/951 |
代理公司: | 北京泽方誉航专利代理事务所(普通合伙) 11884 | 代理人: | 陈照辉 |
地址: | 巴西班让路枫树*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 动态 扩展 分布式 爬虫 系统 数据处理 方法 装置 | ||
1.可动态扩展的分布式爬虫系统,其特征在于,包括依次连接的爬虫任务配置单元、分布式爬虫处理单元、爬虫结果队列单元和大数据处理单元;
所述爬虫任务配置单元用于供用户配置爬虫任务和爬取内容限定条件,所述爬虫任务包括任务信息;所述分布式爬虫处理单元用于接收爬虫任务,并根据爬虫任务的任务信息将该爬虫任务分配至与任务信息对应的爬虫任务队列,从多个爬虫任务队列中分别获取爬虫任务并根据该爬虫任务对应的爬取内容限定条件获取目标资源;所述爬虫结果队列单元用于接收所述目标资源并将所述目标资源进行缓存;所述大数据处理单元用于从爬虫结果队列单元读取目标资源,并根据所述目标资源执行目标资源处理动作,以获得与目标资源对应的目标数据并存储所述目标数据。
2.根据权利要求1所述的分布式爬虫系统,其特征在于,所述爬虫任务配置单元包括相互连接的任务配置模块和条件配置模块,所述任务配置模块用于供用户配置多个分别适用于不同平台的爬虫任务,所述条件配置模块用于供用户配置爬取内容限定条件。
3.根据权利要求1或2所述的分布式爬虫系统,其特征在于,所述分布式爬虫处理单元包括调度模块和多个执行模块,多个执行模块均与所述调度模块连接,所述调度模块与爬虫任务配置单元连接,多个所述执行模块均与爬虫结果队列单元连接;
所述调度模块用于接收爬虫任务,并根据爬虫任务的任务信息将该爬虫任务分配至与任务信息对应的爬虫任务队列;多个所述执行模块用于从不同的爬虫任务队列中分别获取爬虫任务,根据爬虫任务的爬取内容限定条件获取目标资源。
4.根据权利要求1至3任一项所述的分布式爬虫系统,其特征在于,所述大数据处理单元包括多个处理模块,每一个所述处理模块包括相互连接的读取模块和下载模块,所述读取模块与爬虫结果队列单元连接;
所述读取模块用于从爬虫结果队列单元读取目标资源;所述下载模块用于根据所述目标资源下载与目标资源对应的目标数据,并将下载的目标数据进行存储;其中,所述目标资源包含下载地址。
5.根据权利要求4所述的分布式爬虫系统,其特征在于,所述处理模块还包括与下载模块连接的上传模块,所述上传模块用于获取存储的目标数据,将所述目标数据上传至内网服务平台中。
6.根据权利要求5所述的分布式爬虫系统,其特征在于,所述分布式爬虫系统还包括数据库,所述处理模块还包括与上传模块连接的发送模块,发送模块与数据库连接,所述发送模块用于将来自上传模块的目标数据发送至数据库;其中,多个所述处理模块之间并发执行。
7.根据权利要求1所述的分布式爬虫系统,其特征在于,所述目标资源还包含资源信息,所述资源信息由爬取渠道编码、爬虫类型和唯一识别码依次组成,所述唯一识别码为16位唯一识别码,所述16位唯一识别码由10位时间戳和6位唯一码构成。
8.根据权利要求1所述的分布式爬虫系统,其特征在于,还包括可视化单元,所述爬虫任务配置单元、所述分布式爬虫处理单元、所述爬虫结果队列单元均与所述可视化单元连接,所述可视化单元用于根据爬虫结果队列单元中的目标资源生成爬虫结果报表,当爬虫结果队列单元中每新增有目标资源时针对新增的目标资源对所述爬虫结果报表中的内容进行添加;每隔预设时长将爬虫结果报表进行展示;并接收用户的爬取结果查询指令,根据该爬取结果查询指令获取爬虫任务对应的爬取结果。
9.一种基于分布式爬虫的数据处理方法,其特征在于,包括:
接收用户配置的爬虫任务和爬取内容限定条件,所述爬虫任务包括任务信息;
根据爬虫任务的任务信息将该爬虫任务分配至与任务信息对应的爬虫任务队列;
从爬虫任务队列中获取爬虫任务并根据该爬虫任务的爬取内容限定条件获取目标资源;
根据所述目标资源执行目标资源处理动作,以获得与目标资源对应的目标数据,并存储所述目标数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百果园技术(新加坡)有限公司,未经百果园技术(新加坡)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011598949.8/1.html,转载请声明来源钻瓜专利网。