[发明专利]一种网络爬虫实现方法和网络爬虫系统在审

申请号：	201510901579.3	申请日：	2015-12-08
公开（公告）号：	CN105354337A	公开（公告）日：	2016-02-24
发明（设计）人：	葛山	申请（专利权）人：	北京奇虎科技有限公司;奇智软件（北京）有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京市隆安律师事务所 11323	代理人：	权鲜枝;何立春
地址：	100088 北京市西城区新***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种网络爬虫实现方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及计算机技术领域，具体涉及一种网络爬虫实现方法和网络爬虫系统。

背景技术

网络爬虫，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。网络爬虫一般驻留在服务器上，通过给定的一些URL(UniformResourceLocator，统一资源定位符)，利用HTTP(HyperTextTransferProtocol，超文本传输协议)等标准协议读取相应文档，然后以文档中包括的所有未访问过的URL作为新的起点，继续进行漫游，直到没有满足条件的新URL为止。

然而，由于网络爬虫排除标准协议(RobotsExclusionProtocol)的限制，网站可以通过建立robots.txt文件限制网络爬虫爬取网站的全部或部分数据，行为良好的网络爬虫不应当访问robots.txt中禁止查看的信息。而这样就造成许多可以通过正常访问网页获得的资源无法通过网络爬虫来获得。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的网络爬虫实现方法和网络爬虫系统。

依据本发明的一个方面，提供了一种网络爬虫实现方法，包括：

模拟用户对网页的访问操作发送网页访问请求；

根据网页访问请求对应的反馈内容获得相应的网页内容；

分析获得的网页内容，获得目标信息。

可选地，所述模拟用户对网页的访问操作发送网页访问请求包括：

调用浏览器内核进行访问网页的操作，获得相应的网页内容。

可选地，该方法进一步包括：预先配置网址列表；

所述调用浏览器内核进行访问网页的操作，获得相应的网页内容包括：调用浏览器内核依次访问所述网址列表中的各网址对应的网页，获得相应的网页内容。

可选地，该方法进一步包括：预先配置IP地址列表；

所述调用浏览器内核进行访问网页的操作包括：从所述预设IP地址列表中选择一个IP地址，调用浏览器内核以所选择的IP地址作为访问者地址进行访问网页操作。

可选地，该方法进一步包括：

当接收到拒绝访问网页的反馈消息时，从所述预设IP地址列表中重新选择一个IP地址，调用浏览器内核以重新选择的IP地址作为访问者地址进行访问网页操作。

可选地，所述调用浏览器内核进行访问网页的操作，获得相应的网页内容包括：

调用浏览器内核根据本地的cookie进行访问网页的操作，获得相应的网页内容。

依据本发明的另一方面，提供了一种网络爬虫系统，包括：

网页访问处理单元，适于模拟用户对网页的访问操作发送网页访问请求；根据网页访问请求对应的反馈内容获得相应的网页内容；

分析单元，适于分析获得的网页内容，获得目标信息。

可选地，所述网页访问处理单元包括：

调用单元，适于调用浏览器内核进行访问网页的操作，获得相应的网页内容；

浏览器内核，适于根据调用单元的指令进行访问网页的操作。

可选地，该系统进一步包括：网址配置单元，适于预先配置网址列表；

所述调用单元，适于调用浏览器内核依次访问所述网址列表中的各网址对应的网页，获得相应的网页内容。

可选地，该系统进一步包括：IP地址配置单元，适于预先配置IP地址列表；

所述调用单元，适于从所述预设IP地址列表中选择一个IP地址，调用浏览器内核以所选择的IP地址作为访问者地址进行访问网页操作。

可选地，所述调用单元，适于当接收到拒绝访问网页的反馈消息时，从所述预设IP地址列表中重新选择一个IP地址，调用浏览器内核以重新选择的IP地址作为访问者地址进行访问网页操作。

可选地，所述调用单元，适于调用浏览器内核根据本地的cookie进行访问网页的操作，获得相应的网页内容。

由上述可知，本发明的技术方案，通过模拟用户对网页的访问操作，向网站服务器发送网页访问请求，并获取网站服务器根据该网页访问请求返回的反馈内容，进一步获得相应的网页内容，并从中分析获得相应的网页内容。通过该技术方案实现的网络爬虫并不直接访问网站服务器获取资源，而是通过模拟正常用户的网页访问请求，在客户端如浏览器获取到网页内容，避免了受到网站设置的robots.txt中对网络爬虫获取数据内容的限制，并且获取到的内容也是通过正当途径访问网页获取的，既可以满足用户爬取数据的需求，也不违反网站服务提供方的约束。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件（北京）有限公司，未经北京奇虎科技有限公司;奇智软件（北京）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201510901579.3/2.html，转载请声明来源钻瓜专利网。

上一篇：基于远程对话的用户特征挖掘方法
下一篇：一种火力发电厂喷氨脱硝系统的三叉形喷嘴装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种网络爬虫实现方法和网络爬虫系统在审

专利文献下载