[发明专利]自演进的网络自适应爬虫方法及系统有效
申请号: | 201710798931.4 | 申请日: | 2017-09-07 |
公开(公告)号: | CN107580052B | 公开(公告)日: | 2020-04-10 |
发明(设计)人: | 何有树;莫默;唐东;周维军 | 申请(专利权)人: | 翼果(深圳)科技有限公司 |
主分类号: | H04L29/08 | 分类号: | H04L29/08;H04L29/12;G06F16/951;G06N5/02 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 演进 网络 自适应 爬虫 方法 系统 | ||
技术领域
本发明涉及互联网技术领域,尤其涉及一种自演进的网络自适应爬虫方法及系统。
背景技术
互联网的信息每天海量增长,大量的信息中潜在着巨大的商业价值,网络爬虫为采集互联网中的海量信息而存在。由于互联网的信息过于巨大,这对网络爬虫的采集能力、经济性都是巨大的考验;同时,网络信息瞬息万变,及时采集这些信息也显得非常重要。
目前,网站为提供大流量处理能力的同时提供系统的可靠性,一般同时存在多个IP地址提供同等Web服务。现有的爬虫主要包括2种采集方法,一种通过DNS(Domain Name System,域名系统)查询IP再访问,由于DNS Cache(缓存服务)原因,导致每次查到的IP是同样的,使爬虫不能充分利用多个服务端;另一种预先保存域名与IP地址对应关系,通过替换URL中的域名为IP地址的方法实现负荷分担,这使爬虫对很多网站不能访问,因为很多目标网站限制只能使用域名访问,例如新浪微博等。
此外,互联网中不同的目标网站对采集系统有不同的限制策略,这使得网络爬虫不得不为各种目标网站增加各种配置项,开发人员不得不花费很多时间调试目标网站的参数,才能使爬虫系统正常工作,但是很多因素需要运行一段时间才会触发,因此每过一段时间需要检查其工作状态是否正常,分析大量日志,修改爬虫配置参数,再使其正常工作,整个过程中需要持续消耗研发人力。
发明内容
本发明实施例所要解决的技术问题在于,提供一种自演进的网络自适应爬虫方法及系统,以使提高爬虫的采集能力同时能够使爬虫自动适应目标网站的配置项。
为了解决上述技术问题,本发明实施例提出了一种自演进的网络自适应爬虫方法,包括:
步骤1:接收采集任务以及目标网站的IP地址或域名,当接收的为IP地址时直接进入步骤4,当接收的为域名时则根据域名查询对应的域名IP列表是否存在于自建的DNS系统的记录中,记录若存在,则查询记录是否超时,若未超时,则进入步骤4;若记录不存在或记录超时,则进入步骤2;
步骤2:查询目标网站的域名对外提供服务的所有IP地址;
步骤3:探测查询到的IP地址是否有效,将有效的IP地址生成与目标网站对应的域名IP列表,并更新至自建的DNS系统;
步骤4:探测并保存与目标网站对应的IP地址的网络环境或引用在预设期限内的之前任务所探测对应的网络探测结果,并基于域名IP列表结合IP地址的网络探测结果进行负荷分担,分配爬虫的采集任务;
步骤5:根据机器学习的规则知识库预测对应的采集模型,并根据采集模型设置爬虫的参数值,采集目标网站的数据。
相应地,本发明实施例还提供了一种自演进的网络自适应爬虫系统,包括:
采集模块:接收采集任务以及目标网站的IP地址或域名,当接收的为IP地址时,探测IP地址的网络环境或引用在预设期限内的之前任务所探测对应的网络探测结果,并结合IP地址的网络探测结果进行负荷分担,分配爬虫的采集任务;当接收的为域名时则根据域名查询对应的域名IP列表是否存在于自建的DNS系统的记录中,记录若存在,则查询记录是否超时,若未超时,则探测对应的域名IP列表内IP地址的网络环境或引用在预设期限内的之前任务所探测对应的网络探测结果,并基于域名IP列表结合IP地址的网络探测结果进行负荷分担,分配爬虫的采集任务;若记录不存在或记录超时,则查询目标网站的域名对外提供服务的所有IP地址,并探测查询到的IP地址是否有效,将有效的IP地址生成与目标网站对应的域名IP列表,并更新至自建的DNS系统,再探测对应的域名IP列表内各IP地址的网络环境或引用在预设期限内的之前任务所探测对应的网络探测结果,基于域名IP列表并结合IP地址的网络探测结果进行负荷分担,分配爬虫的采集任务;根据机器学习的规则知识库预测对应的采集模型,并根据采集模型设置爬虫的参数值,采集目标网站的数据。
本发明实施例通过提出一种自演进的网络自适应爬虫方法及系统,所述爬虫方法包括步骤1~步骤5,通过获取自建的DNS系统中目标网站对外提供服务的所有IP地址列表并结合网络能力探测结果来生成负荷分担任务,以及通过机器学习的规则知识库预测最高成功率的采集模型,解决了爬虫采集能力差及需经常修改爬虫配置参数的问题,进而达到了提高爬虫的采集能力同时能够使爬虫自动适应目标网站的配置项的技术效果。
附图说明
图1是本发明实施例的自演进的网络自适应爬虫方法的流程示意图。
图2是本发明一种实施例的域名对应的IP地址的示意图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于翼果(深圳)科技有限公司,未经翼果(深圳)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710798931.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种绕线器及数据传输装置
- 下一篇:一种枸杞采摘装置