[发明专利]一种网站网页源代码自动爬取方法在审

专利信息
申请号: 201810297883.5 申请日: 2018-03-30
公开(公告)号: CN108664559A 公开(公告)日: 2018-10-16
发明(设计)人: 杨智;陈锭敏 申请(专利权)人: 中山大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 广东广信君达律师事务所 44329 代理人: 杨晓松
地址: 510275 *** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 源代码 网站网页 网页 网站 网页源代码 爬虫程序 代理IP地址 爬虫 访问网站 机器代码 目标信息 停止运行 网页请求 网站识别 网站数据 运行代码 自动更换 反应时 有效地 浏览器 报错 伪装 数据库 封锁 网络
【说明书】:

本发明涉及一种网站网页源代码自动爬取方法,在确定好的网站中爬取网页,使得爬取的网页比较集中,有着比较明显的共同特性,方便在编写爬虫程序爬取网页。而且在特定的网站爬取网页,使得要爬取的目标信息比较集中,能够完整得快速得爬取到所需要的信息。在爬取网站网页源代码上,能够有效得伪装成浏览器发出的网页请求,防止被网站识别为机器代码在爬取网站数据。通过设置一定的等待时间,使得当网站或者网络出现异常情况而未对爬虫程序做出反应时代码报错停止运行,能够长时间自动得运行代码爬取网页源代码。通过添加代理IP地址数据库,能够有效地防止当爬虫代码被封锁IP拒绝访问网站时,程序还能自动更换IP继续爬取网页源代码。

技术领域

本发明涉及网络爬虫的技术领域,尤其涉及到一种网站网页源代码自动爬取方法。

背景技术

随着互联网技术的快速发展,网络上的信息数据呈爆炸式增长。这使得在网络上查找到我们需要的信息数据越来越困难。如何对这些多样性、实时性数据进行统计分析从而获得数据背后的有价值信息显得十分有意义。正是在这样的背景之下,最近几年大数据技术迅速发展,在各行各业的应用越来越广泛。要利用大量数据分析信息,如何获取网络上的数据并进行存储就显得尤其重要。

当前人们在查找一些数据的时候,大部分是通过搜索引擎搜索然后在网站上直接浏览获得。虽然这种方法比较简单方便,但当数据量庞大而且需要存储下来的时候,这种方法就需要耗费大量的时间并且往往无法从这些数据中分析获得我们需要的信息。

当数据量较为巨大时,目前所使用的技术方案是利用网络爬虫来爬取网页源代码,再从中提取我们需要的数据。网络爬虫是一种自动提取网页的程序,主要有通用网络爬虫和聚焦网络爬虫。例如申请号为CN201410021505.6的中国发明专利,其申请公开一种数据获取方法。其数据获取过程分为以下几个步骤:初始数据分析及分词操作,得到关键词;使用所述关键词进行搜索,得到网站的页面;对所述网站的页面进行信息爬取,根据所述网站的页面的源文件与正进行正则匹配,得到匹配则表达式结果;根据所述关键词或者与标签库进行比对,分别将所述匹配结果中的信息放置于对应的视频属性库的对应字段中去;进行数据分析,根据所述网站的页面的权重和信息重复量来进行数据计算;对于自动填写的内容进行编辑确认和加工。又例如申请号为CN201310198598.5的中国发明专利,其申请公开一种网页爬取方法及系统,该方法包括对样本网页进行训练得到数据提取条件;爬取web网页;将爬取到的web网页解析成dom树结构,得到web网页dom树,根据所述数据提取条件对所述web网页dom树进行分析,提取所需数据。

上述现有的技术方案中,利用搜索引擎搜索获得的网站数据,由于网络数据量庞大,无法短时间内获得目标数据。而且当目标数据量也十分巨大时,利用搜索引擎来搜索数据然后一个个查找下载无疑会耗费大量的时间,并且靠人眼的查看难免会漏掉一些数据。而利用网络爬虫来爬取网页源代码从而提取数据,确实会快速准确得获取到目标数据,但是现有的技术方案中并未对爬取网页源代码进一步做说明。而我们在爬取网页的时候,由于网站服务器会设置反爬虫,会直接拒绝那些明显是由自动化程序发起的请求。在反爬虫里面最常用的手段就是判断该请求是否由浏览器发出,是否请求频率过快,在短时间内发送大量的请求。这些手段往往造成我们无法顺利得爬取网站的网页源代码。

因此,如何使爬虫代码能够在短时间内高频率的爬取网页源代码,从中提取有价值的信息的问题亟待解决。

发明内容

本发明的目的在于克服现有技术的不足,提供一种能够避免被网站识别为自动机器代码、能够长时间自动地运行代码爬取网页源代码、当爬虫代码被封锁IP拒绝访问网站时还能继续爬取网页源代码的网站网页源代码自动爬取方法。

为实现上述目的,本发明所提供的技术方案为:

包括以下步骤:

S1、确定含有目标信息的网站,分析该网站确定目标信息所在的网页,以及该些含有目标信息网页特有的共同特点;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810297883.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top