[发明专利]自演进的网络自适应爬虫方法及系统有效

申请号：	201710798931.4	申请日：	2017-09-07
公开（公告）号：	CN107580052B	公开（公告）日：	2020-04-10
发明（设计）人：	何有树;莫默;唐东;周维军	申请（专利权）人：	翼果（深圳）科技有限公司
主分类号：	H04L29/08	分类号：	H04L29/08;H04L29/12;G06F16/951;G06N5/02
代理公司：	暂无信息	代理人：	暂无信息
地址：	518000 广东省深圳市***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明实施例公开了一种自演进的网络自适应爬虫方法及系统，所述爬虫方法包括：步骤1：接收采集任务，若接收为IP地址进入步骤4，接收为域名则查询是否存在于自建的DNS系统，若存在，则查询记录是否超时，若未超时则进入步骤4；步骤2：若不存在或超时则查询目标网站的所有IP地址；步骤3：探测IP地址并生成域名IP列表并更新；步骤4：探测IP地址的网络环境，结合探测结果分配爬虫任务；步骤5：预测采集模型并设置爬虫，采集数据。本发明实施例通过自建DNS系统结合网络环境生成负荷分担任务以及通过预测采集模型，解决了爬虫采集能力差及需经常修改配置参数问题，进而提高了爬虫的采集能力同时使爬虫能自动适应目标网站的配置项。
搜索关键词：	演进网络自适应爬虫方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种自演进的网络自适应爬虫方法，其特征在于，包括：步骤1：接收采集任务以及目标网站的IP地址或域名，当接收的为IP地址时直接进入步骤4，当接收的为域名时则根据域名查询对应的域名IP列表是否存在于自建的DNS系统的记录中，记录若存在，则查询记录是否超时，若未超时，则进入步骤4；若记录不存在或记录超时，则进入步骤2；步骤2：查询目标网站的域名对外提供服务的所有IP地址；步骤3：探测查询到的IP地址是否有效，将有效的IP地址生成与目标网站对应的域名IP列表，并更新至自建的DNS系统；步骤4：探测并保存与目标网站对应的IP地址的网络环境或引用在预设期限内的之前任务所探测对应的网络探测结果，并基于域名IP列表结合IP地址的网络探测结果进行负荷分担，分配爬虫的采集任务；步骤5：根据机器学习的规则知识库预测对应的采集模型，并根据采集模型设置爬虫的参数值，采集目标网站的数据。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于翼果（深圳）科技有限公司，未经翼果（深圳）科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710798931.4/，转载请声明来源钻瓜专利网。

同类专利

专利分类

H 电学

H04 电通信技术
H04L 数字信息的传输，例如电报通信
H04L29-00 H04L 1/00至H04L 27/00单个组中不包含的装置、设备、电路和系统
H04L29-02 .通信控制；通信处理
H04L29-12 .以数据终端为特征的
H04L29-14 .故障的应对措施
H04L29-04 ..用于多条通信线路的
H04L29-06 ..以协议为特征的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]自演进的网络自适应爬虫方法及系统有效

专利文献下载