[发明专利]一种用于IDC有害信息监测平台的爬虫系统有效

专利信息
申请号: 201510343175.7 申请日: 2015-06-19
公开(公告)号: CN104899323B 公开(公告)日: 2018-09-11
发明(设计)人: 彭光辉;屈立笳;陶磊;苏礼刚;林伟 申请(专利权)人: 成都国腾实业集团有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 成都金英专利代理事务所(普通合伙) 51218 代理人: 袁英
地址: 610041 四川省成都*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种用于IDC有害信息监测平台的爬虫系统,它包括一个或多个爬虫集群,且每个爬虫集群均包括多个爬虫结点和一个爬虫根节点,形成一个分布式的数据采集网络,爬虫根节点用于对该爬虫集群中的爬虫结点进行控制和管理,爬虫结点用于采集网络中的有害信息,每个爬虫结点均包括多线程网页采集模块、网页库、编码识别处理模块、网页内容自动提取模块、URL过滤器、URL去重模块和URL调度模块。本发明提供了强大的数据收集功能,通过多个爬虫集群对动态网页和静态网页进行全面的实时监控。
搜索关键词: 一种 用于 idc 有害信息 监测 平台 爬虫 系统
【主权项】:
1.一种用于IDC有害信息监测平台的爬虫系统,其特征在于:它包括一个或多个爬虫集群,且每个爬虫集群均包括多个爬虫结点和一个爬虫根节点,形成一个分布式的数据采集网络,其中,爬虫根节点用于对该爬虫集群中的爬虫结点进行控制和管理,爬虫结点用于采集网络中的有害信息,所述每个爬虫结点均由以下多种模块组成:多线程网页采集模块,包括多种网页采集通道及网页解析模块,针对不同类型的网页,通过与其相匹配的网页采集通道和网页解析模块对其进行采集;网页库,存储多线程网页采集模块所采集的网页;编码识别处理模块,自动识别网页的编码类型,并对其进行编码转换处理;网页内容自动提取模块,包括动态网页内容提取模块和静态网页内容提取模块,根据敏感词库抓取编码转换处理后存在有害信息网页的URL;间隔抓取模块,间隔抓取模块通过网页评分和网站权重自动生成间隔规则,并控制所述网页内容自动提取模块对网页进行相应的间隔抓取;URL过滤器,过滤不需要下载的URL;URL去重模块,用于判断过滤后的URL是否与URL存储器中所存储的URL一致,若一致则不再对该URL进行后续的处理;URL调度模块,根据去重后的URL队列,控制多线程网页采集模块下载相应的网页。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都国腾实业集团有限公司,未经成都国腾实业集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201510343175.7/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top