[发明专利]一种用于IDC有害信息监测平台的爬虫系统有效

申请号：	201510343175.7	申请日：	2015-06-19
公开（公告）号：	CN104899323B	公开（公告）日：	2018-09-11
发明（设计）人：	彭光辉;屈立笳;陶磊;苏礼刚;林伟	申请（专利权）人：	成都国腾实业集团有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	成都金英专利代理事务所(普通合伙) 51218	代理人：	袁英
地址：	610041 四川省成都***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种用于IDC有害信息监测平台的爬虫系统，它包括一个或多个爬虫集群，且每个爬虫集群均包括多个爬虫结点和一个爬虫根节点，形成一个分布式的数据采集网络，爬虫根节点用于对该爬虫集群中的爬虫结点进行控制和管理，爬虫结点用于采集网络中的有害信息，每个爬虫结点均包括多线程网页采集模块、网页库、编码识别处理模块、网页内容自动提取模块、URL过滤器、URL去重模块和URL调度模块。本发明提供了强大的数据收集功能，通过多个爬虫集群对动态网页和静态网页进行全面的实时监控。
搜索关键词：	一种用于 idc 有害信息监测平台爬虫系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种用于IDC有害信息监测平台的爬虫系统，其特征在于：它包括一个或多个爬虫集群，且每个爬虫集群均包括多个爬虫结点和一个爬虫根节点，形成一个分布式的数据采集网络，其中，爬虫根节点用于对该爬虫集群中的爬虫结点进行控制和管理，爬虫结点用于采集网络中的有害信息，所述每个爬虫结点均由以下多种模块组成：多线程网页采集模块，包括多种网页采集通道及网页解析模块，针对不同类型的网页，通过与其相匹配的网页采集通道和网页解析模块对其进行采集；网页库，存储多线程网页采集模块所采集的网页；编码识别处理模块，自动识别网页的编码类型，并对其进行编码转换处理；网页内容自动提取模块，包括动态网页内容提取模块和静态网页内容提取模块，根据敏感词库抓取编码转换处理后存在有害信息网页的URL；间隔抓取模块，间隔抓取模块通过网页评分和网站权重自动生成间隔规则，并控制所述网页内容自动提取模块对网页进行相应的间隔抓取；URL过滤器，过滤不需要下载的URL；URL去重模块，用于判断过滤后的URL是否与URL存储器中所存储的URL一致，若一致则不再对该URL进行后续的处理；URL调度模块，根据去重后的URL队列，控制多线程网页采集模块下载相应的网页。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于成都国腾实业集团有限公司，未经成都国腾实业集团有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201510343175.7/，转载请声明来源钻瓜专利网。

上一篇：一种测量网页首屏完全渲染时间的方法
下一篇：复杂地址中多条路径的分析方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种用于IDC有害信息监测平台的爬虫系统有效

专利文献下载