[发明专利]一种基于分布式爬虫的数据获取方法及其系统在审

申请号：	201810274062.X	申请日：	2018-03-29
公开（公告）号：	CN108536788A	公开（公告）日：	2018-09-14
发明（设计）人：	王华伟	申请（专利权）人：	合肥俊刚机械科技有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京和信华成知识产权代理事务所(普通合伙) 11390	代理人：	胡剑辉
地址：	230000 安徽省合肥市经济技术开发区青龙***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开一种基于分布式爬虫的数据获取方法，包括以下步骤：根据不同网页的属性对网页进行划分；针对网页的划分，确定至少一个爬虫抓取参数；按照确定的爬虫抓取参数抓取当前网页信息，并对抓取的网页信息进行解析，得到解析数据；对获得的解析数据进行编译；对编译后的网页数据信息进行汇总，并反馈至数据保存模块；用汇总后的网页数据信息进行存储。本发明基于分布式爬虫的数据获取方法及其系统，通过对网页进行划分，并按照网页的划分确定爬虫抓取参数，通过爬虫抓取参数可抓取网页信息，且跳转连接可与其他网页进行连接，实现网页信息的快速抓取，保证在较短的时间内完成数据的采集，提高了采集的效率，满足时间的要求。
搜索关键词：	抓取爬虫网页网页信息数据获取网页数据信息解析数据编译数据保存模块采集跳转解析存储反馈保证
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于分布式爬虫的数据获取方法，其特征在于，包括以下步骤：S1、根据不同网页的属性对网页进行划分；S2、针对网页的划分，确定至少一个爬虫抓取参数；S3、按照确定的爬虫抓取参数抓取当前网页信息，并对抓取的网页信息进行解析，得到解析数据；S4、对获得的解析数据进行编译，得到用户能够识别的网页数据信息；S5、对编译后的网页数据信息进行汇总，并反馈至数据保存模块；S6、用汇总后的网页数据信息进行存储。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于合肥俊刚机械科技有限公司，未经合肥俊刚机械科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810274062.X/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于分布式爬虫的数据获取方法及其系统在审

专利文献下载