[发明专利]自演进的网络自适应爬虫方法及系统有效
申请号: | 201710798931.4 | 申请日: | 2017-09-07 |
公开(公告)号: | CN107580052B | 公开(公告)日: | 2020-04-10 |
发明(设计)人: | 何有树;莫默;唐东;周维军 | 申请(专利权)人: | 翼果(深圳)科技有限公司 |
主分类号: | H04L29/08 | 分类号: | H04L29/08;H04L29/12;G06F16/951;G06N5/02 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明实施例公开了一种自演进的网络自适应爬虫方法及系统,所述爬虫方法包括:步骤1:接收采集任务,若接收为IP地址进入步骤4,接收为域名则查询是否存在于自建的DNS系统,若存在,则查询记录是否超时,若未超时则进入步骤4;步骤2:若不存在或超时则查询目标网站的所有IP地址;步骤3:探测IP地址并生成域名IP列表并更新;步骤4:探测IP地址的网络环境,结合探测结果分配爬虫任务;步骤5:预测采集模型并设置爬虫,采集数据。本发明实施例通过自建DNS系统结合网络环境生成负荷分担任务以及通过预测采集模型,解决了爬虫采集能力差及需经常修改配置参数问题,进而提高了爬虫的采集能力同时使爬虫能自动适应目标网站的配置项。 | ||
搜索关键词: | 演进 网络 自适应 爬虫 方法 系统 | ||
【主权项】:
一种自演进的网络自适应爬虫方法,其特征在于,包括:步骤1:接收采集任务以及目标网站的IP地址或域名,当接收的为IP地址时直接进入步骤4,当接收的为域名时则根据域名查询对应的域名IP列表是否存在于自建的DNS系统的记录中,记录若存在,则查询记录是否超时,若未超时,则进入步骤4;若记录不存在或记录超时,则进入步骤2;步骤2:查询目标网站的域名对外提供服务的所有IP地址;步骤3:探测查询到的IP地址是否有效,将有效的IP地址生成与目标网站对应的域名IP列表,并更新至自建的DNS系统;步骤4:探测并保存与目标网站对应的IP地址的网络环境或引用在预设期限内的之前任务所探测对应的网络探测结果,并基于域名IP列表结合IP地址的网络探测结果进行负荷分担,分配爬虫的采集任务;步骤5:根据机器学习的规则知识库预测对应的采集模型,并根据采集模型设置爬虫的参数值,采集目标网站的数据。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于翼果(深圳)科技有限公司,未经翼果(深圳)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710798931.4/,转载请声明来源钻瓜专利网。
- 上一篇:一种绕线器及数据传输装置
- 下一篇:一种枸杞采摘装置