[发明专利]使用爬虫获取外部数据的方法及装置在审
申请号: | 201910320214.X | 申请日: | 2019-04-19 |
公开(公告)号: | CN110188258A | 公开(公告)日: | 2019-08-30 |
发明(设计)人: | 申超波;阮晓雯;徐亮 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/28 |
代理公司: | 北京中强智尚知识产权代理有限公司 11448 | 代理人: | 黄耀威 |
地址: | 518000 广东省深圳市福田街*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 爬虫 爬虫程序 抓取 获取数据 结果数据 外部数据 页面 数据获取指令 触发条件 获取指令 人工操作 自动调用 调用 解析 存储 | ||
本发明实施例提供了一种使用爬虫获取外部数据的方法及装置。一方面,该方法包括:根据触发条件获取数据获取指令;根据所述数据获取指令调用爬虫程序;接收所述爬虫程序抓取的爬虫页面;解析所述爬虫页面得到结果数据,并将所述结果数据存储至mysql数据库。通过本发明,解决了现有技术中不能自动调用爬虫程序获取数据的技术问题,提高了使用爬虫抓取数据的效率,减少了人工操作。
【技术领域】
本发明涉及计算机领域,尤其涉及一种使用爬虫获取外部数据的方法及装置。
【背景技术】
现有技术中,爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,爬虫是目前所有公司获取外部数据最常用和最重要的手段,对于业务内数据能够起到很好的补充作用。
现有技术中,但是现在爬虫领域存在较多技术,但每种技术的功能又过于单一,且爬虫的自动化及爬虫的数据持久化都比较缺乏,但是在爬虫获取到数据后,需要用户进一步筛选和处理,效率较低,在应用到大型数据库建立和周期任务时,需要消耗大量的人力。
针对相关技术中存在的上述问题,目前尚未发现有效的解决方案。
【发明内容】
有鉴于此,本发明实施例提供了一种使用爬虫获取外部数据的方法及装置。
一方面,本发明实施例提供了一种使用爬虫获取外部数据的方法,所述方法包括:根据触发条件获取数据获取指令;根据所述数据获取指令调用爬虫程序;接收所述爬虫程序抓取的爬虫页面;解析所述爬虫页面得到结果数据,并将所述结果数据存储至mysql数据库。
可选的,根据所述数据获取指令调用爬虫程序包括:将所述数据获取指令转换为爬虫任务;确定所述爬虫任务的难度系数;根据所述难度系数确定爬虫程序的数量以及所述爬虫程序的爬虫请求方式。
可选的,确定所述爬虫任务的难度系数包括:根据以下至少之一所述爬虫任务的难度系数:数据源的数量,数据的大小,数据分布区域的大小,链接地址的复杂度。
可选的,根据所述难度系数确定爬虫程序的数量以及所述爬虫程序的爬虫请求方式包括:在所述难度系数低于预设阈值时,选择一个爬虫程序和第一类型的爬虫请求方式;在所述难度系数大于或等于所述预设阈值时,选择多个爬虫程序和多个对应的第二类型的爬虫请求方式;其中,所述第一类型的爬虫请求方式包括以下之一:直接获取统一资源定位符URL、利用代理请求;所述第二类型的爬虫请求方式包括以下之一:采用模型浏览器请求、采用真实浏览器内核请求。
可选的,根据所述数据获取指令调用爬虫程序包括:将所述数据获取指令转换为爬虫任务;调用分布式网络中的多个爬虫节点,其中,爬虫程序分布在每个爬虫节点上,爬虫节点设置在分布式网络的服务器中;获取分布式网络中每个爬虫节点的处理能力;根据每个爬虫节点的处理能力为每个爬虫节点分配爬虫子任务,其中,所述爬虫任务包括多个爬虫子任务。
可选的,在分层解析所述爬虫页面时,解析所述爬虫页面得到结果数据包括:接收到上层对当前层的调用请求;根据所述调用请求中携带的元数据,确定目标操作对象所继承的目标实体,其中,所述目标操作对象为当前层需要解析的对象,所述目标实体为所述元数据定义的数据;根据所述目标实体,对所述操作对象执行解析操作。
可选的,解析所述爬虫页面得到结果数据包括:解析所述爬虫页面得到与所述爬虫页面对应的原始数据;对所述原始数据进行数据清洗及筛选处理,删除包含黑名单词库的数据包,得到第一结果数据;在所述第一结果数据中选择包含关键词的数据包,得到第二结果数据。
另一方面,本发明实施例提供了一种使用爬虫获取外部数据的装置,所述装置包括:获取模块,用于根据触发条件获取数据获取指令;调用模块,用于根据所述数据获取指令调用爬虫程序;接收模块,用于接收所述爬虫程序抓取的爬虫页面;解析模块,用于解析所述爬虫页面得到结果数据,并将所述结果数据存储至mysql数据库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910320214.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种移动应用数据采集方法及装置
- 下一篇:一种可配置化的数据抓取方法和装置