[发明专利]一种自定义动态扩展的暗网爬虫系统在审
申请号: | 201910071997.2 | 申请日: | 2019-01-25 |
公开(公告)号: | CN109902212A | 公开(公告)日: | 2019-06-18 |
发明(设计)人: | 徐进;孙恩博;刘义铭;郭宇斌;吕泉池;陈周国 | 申请(专利权)人: | 中国电子科技集团公司第三十研究所 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/953;G06F16/958 |
代理公司: | 成都九鼎天元知识产权代理有限公司 51214 | 代理人: | 刘世权 |
地址: | 610000 *** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种自定义动态扩展的暗网爬虫系统,包括:网页解析插件模块,对各类网页页面进行解析并将下一级站点链接输入给爬虫调度器;爬虫线程模块,负责执行各类网页爬虫过程;爬虫调度器模块,负责网页解析插件模块与爬虫线程之间的交互;并发模块,并发代理连接站点对网页页面进行下载,并且将网页页面数据输送给爬虫线程;负载均衡代理池管理模块:动态代理服务加载与管理,提供负载均衡功能。本发明保证了爬虫系统可用可维护性。动态加载tor代理池方式实现多站点页面并行下载,提高了爬虫系统完成爬取任务的时间效率。采用负载均衡代理池管理模块,对各tor代理的爬虫下载网页任务数量进行实时监控与均衡分配,实现了各tor代理的最大化使用。 | ||
搜索关键词: | 爬虫 爬虫系统 代理 线程 插件模块 动态扩展 负载均衡 网页解析 网页页面 池管理 自定义 暗网 下载 并发 负载均衡功能 网页页面数据 调度器模块 并行下载 动态代理 动态加载 服务加载 均衡分配 可维护性 时间效率 实时监控 网页爬虫 站点链接 站点页面 调度器 最大化 可用 解析 站点 网页 保证 管理 | ||
【主权项】:
1.一种自定义动态扩展的暗网爬虫系统,其特征在于,包括:网页解析插件模块,对各类网页页面进行解析并将下一级站点链接输入给爬虫调度器;爬虫线程模块,负责执行各类网页爬虫过程;爬虫调度器模块,负责网页解析插件模块与爬虫线程之间的交互;并发模块,并发代理连接站点对网页页面进行下载,并且将网页页面数据输送给爬虫线程;负载均衡代理池管理模块:动态代理服务加载与管理,提供负载均衡功能。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第三十研究所,未经中国电子科技集团公司第三十研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910071997.2/,转载请声明来源钻瓜专利网。