[发明专利]一种基于Scrapy的数据采集方法有效
申请号: | 201910040521.2 | 申请日: | 2019-01-16 |
公开(公告)号: | CN109766488B | 公开(公告)日: | 2022-09-16 |
发明(设计)人: | 赵蕾 | 申请(专利权)人: | 南京工业职业技术学院 |
主分类号: | G06F16/953 | 分类号: | G06F16/953 |
代理公司: | 南京业腾知识产权代理事务所(特殊普通合伙) 32321 | 代理人: | 董存壁 |
地址: | 210023 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于Scrapy的数据采集方法,该方法首先确定需要采集的大数据的来源,其次定性进行数据的获取,然后将样本数据定量,最后基于Scrapy技术进行数据的采集。本发明实现了对海量数据进行采集,使得数据的采集条理清晰,在采集的数据量庞大时不混乱。 | ||
搜索关键词: | 一种 基于 scrapy 数据 采集 方法 | ||
【主权项】:
1.一种基于Scrapy的数据采集方法,其特征在于:包括以下步骤:步骤1:确定需要采集的大数据的来源从数据来源来看,社交网络、移动互联网、信息化企业都是海量数据的制造者,按照产生数据的领域进行划分,可分为网络数据、物理世界数据、科研试验数据三类;其中,网络数据是指在网络空间中进行沟通、交流、购物、学习、浏览网站等所产生各种数据;根据用户行为,又可细分为社交行为数据,以SNS网络为基础;购物行为数据,以电子商务平台为基础;搜索行为数据,以搜索引擎为基础等;物理世界数据是指通过智能设备感知和表示获得的数据;一种是基于大型装备的数据采集,如:飞机、汽车、大型农机装备等;另一种是基于传感器的分散数据采集,比如温度、湿度、压力、声音、图像、光、磁、电压等数据;科研试验数据指在试验过程中产生的海量的、用于科学分析的数据;随着科研信息化的发展,传统科研活动逐渐向以数据为中心科学研究转变,尤其在基因组学、蛋白组学、天体物理学、气象学和脑科学等领域,会产生海量数据;步骤2:定性获取需采集的数据可以将不含有数字的信息称之为定性数据,一般不依靠工具设备,只给出需采集的数据的建议;典型的形式即调研考察,通过与被采集用户进行交流等,获取徐采集数据的大致信息,获得调研对象的概貌了解;步骤3:将所要采集的样本数据定量样本数据已属于定量数据采集阶段,借助于数据采集工具,采集某一种或几种数据,指导生产或决策,样本数据采集阶段的主要特征是人工参与,借助设备来完成数据的采集工作;步骤4:基于Scrapy技术进行数据的采集Scrapy是一种基于网络爬虫的数据采集方法,是由Twisted(一种基于Python的事件驱动的网络架构)改写的、抽取结构化数据的应用框架,同样可以在数据挖掘、信息处理和历史归档等方面应用;Scrapy主要包括了以下组件:引擎(Engine),引擎主要负责控制系统中不同组件之间的数据流以及特定行为发生时触发事件;调度器(Scheduler),调度器接受引擎请求并对请求进行排队根据引擎需要将请求返回给引擎;下载器(Downloader),下载器负责下载网页,并通过引擎将网页传递spider;蜘蛛(Spider),蜘蛛是由Scrapy用户编写的类,负责从URL中解析响应内容抽取具体条目;项目管道(Item Pipeline),蜘蛛抽取网页后交由项目管道进一步处理,包括清洗、验证、一致性管理等;下载器中间件(Downloader middlewares),下载器中间件负责协调引擎和下载器的通信,负责处理引擎到下载器之间的请求以及下载器到引擎之间的响应;蜘蛛中间件(Spider middlewares),蜘蛛中间件用于协调引擎和蜘蛛的通信,用于处理蜘蛛的输入(响应)和输出(项目和请求);Scrapy的网络爬虫的数据采集方法步骤如下:1)以初始的URL初始化Request,并设置回调函数,当该request下载完毕并返回时,将生成response,并作为参数传给该回调函数;2)在回调函数内分析返回的(网页)内容,返回Item对象或者Request或者一个包括二者的可迭代容器;3)在回调函数内,您可以使用选择器(Selectors)来分析网页内容,并根据分析的数据生成item;4)由spider返回的item将数据存到数据库或使用Feed exports存入到文件中;Scrapy主要类包括Item、Spider、Selector等;Item是保存爬取到数据的容器,可以通过创建一个scrapy.Item类,并且定义类型为scrapy.Field的类属性来定义一个Item;Spider类定义了如何爬取某个(或某些)网站,包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据;Seletors通过特定的XPath或者CSS表达式来“选择”HTML文件中的某个部分。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京工业职业技术学院,未经南京工业职业技术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910040521.2/,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置