[发明专利]一种爬取网页内容的方法和装置在审
申请号: | 201810864353.4 | 申请日: | 2018-08-01 |
公开(公告)号: | CN109255063A | 公开(公告)日: | 2019-01-22 |
发明(设计)人: | 唐明东;覃柏瑜 | 申请(专利权)人: | 宜人恒业科技发展(北京)有限公司;普信恒业科技发展(北京)有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951 |
代理公司: | 上海衡方知识产权代理有限公司 31234 | 代理人: | 朱穆峰 |
地址: | 100022 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页内容 目标页面 页面流 计算机可读存储介质 方法和装置 结构化信息 代码发布 爬虫系统 任务参数 系统重启 页面配置 有效解决 热部署 下载 调用 配置 维护 | ||
本发明的实施方式提供了一种爬取网页内容的方法。该方法包括:根据任务参数调用相应的页面流配置;根据所述页面流配置下载目标页面;根据页面配置提取目标页面中的结构化信息。本发明有效解决了因代码发布等维护原因需要系统重启的问题,实现了爬虫系统的热部署能力。此外,本发明的实施方式还提供了一种爬取网页内容的装置、一种设备以及一种计算机可读存储介质。
技术领域
本发明的实施方式涉及数据挖掘技术领域,更具体地,本发明的实施方式涉及一种爬取网页内容的方法、一种爬取网页内容的装置、一种设备以及一种计算机可读存储介质。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
网页爬虫(又称“网络蜘蛛”等)是一种计算机程序,用于向服务器发起HTTP请求,从而获得服务器的网页并解析网页,得到所需要的信息。
按照对页面流是否预先定义来划分,网页爬虫可以分为两类:定向爬虫和非定向爬虫。定向爬虫爬取某些特定网站的几个特定页面,并且根据某种业务模型来提取结构化的信息,譬如爬取各城市之间的航班及运价信息。非定向爬虫从网站的几个种子链接出发,先爬取种子页面,之后提取种子页面内所有的超链接,继而爬取新得到的超链接,如此循环,直到所有页面爬取完毕或者到达指定的链接深度为止。百度、谷歌等搜索引擎的爬虫就是典型的非定向爬虫。
相对非定向爬虫需要爬取整个网站甚至全网的页面,定向爬虫爬取的页面要少得多,但要求很高的实时性、信息提取精确无误、有时需要与用户交互获取用户的授权、快速对网站的变动做相应的调整。
现有的开源爬虫框架有很多,譬如Nutch、Crawler4j、WebMagic、WebCollector、scrapy等,这些框架针对非定向爬虫而设计,解决了线程调度和页面下载和链接遍历的问题,将爬取到的页面存到Hadoop集群或者本地文件系统。
然而对于有定向爬虫需求的公司,往往需要自行开发相应的技术系统。这些技术系统针对每一个网站编写一套计算机程序来下载和解析对应的网页。由于这些爬虫技术系统通过特定编程语言(例如Java、C++、Python等等)编写代码实现,因而具有如下重大缺点:其一,对爬虫技术系统进行升级、扩展和调整等维护时需要停机、重新发布代码,即不能实现热部署;其二,请求页面的参数构建、信息提取、页面控制流等程序代码揉在一起,程序代码由于编程语言差异、编程风格差异等因素,不直观、不易理解和不好维护。
发明内容
为有效解决因代码发布等维护原因需要重启系统的问题,实现热部署能力,本发明的实施方式期望提供一种爬取网页内容的方法、一种爬取网页内容的装置、一种设备以及一种计算机可读存储介质,使得爬虫技术系统具备热部署能力,在对爬虫技术系统进行升级、拓展和调整等维护时不需要重启服务,大大提高系统的可用性。
在本发明实施方式的第一方面中,提供了一种爬取网页内容的方法,包括:根据任务参数调用相应的页面流配置;根据所述页面流配置下载目标页面;根据页面配置提取目标页面中的结构化信息。
在本发明的一个实施例中,所述页面配置存在于页面流配置下。
在本发明的另一实施例中,所述页面流配置存在于配置规则库中。
在本发明的又一个实施例中,所述配置规则库包含自定义函数配置。
在本发明的再一个实施例中,所述自定义函数配置、页面流配置、页面配置的数据格式是XML格式、YML格式以及JSON格式中的任意一种或者多种。
在本发明的再一个实施例中,还包括:在根据页面配置提取目标页面中的结构化信息后,将所述结构化信息持久化。
在本发明的再一个实施例中,所述持久化是指将结构化信息置于数据库、缓存以及文件系统中的任意一种或者多种。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宜人恒业科技发展(北京)有限公司;普信恒业科技发展(北京)有限公司,未经宜人恒业科技发展(北京)有限公司;普信恒业科技发展(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810864353.4/2.html,转载请声明来源钻瓜专利网。