[发明专利]网页爬取的方法和装置有效
申请号: | 201611089766.7 | 申请日: | 2016-11-30 |
公开(公告)号: | CN108121751B | 公开(公告)日: | 2021-01-22 |
发明(设计)人: | 崔志伸 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/958 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 韩建伟;张永明 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 方法 装置 | ||
本发明公开了一种网页爬取的方法和装置。其中,该方法包括:在翻页爬取任务中针对每页的爬取结果进行存储,并依据每页对应的爬取结果生成对应的存储标识;在翻页爬取任务爬取页面失败时,依据存储标识对应的爬取进程执行爬取操作;在翻页爬取任务结束时,依据每页对应的存储标识提取对应的爬取结果;存储翻页爬取任务的爬取结果。本发明解决了由于翻页过程中出现不可控错误时,之前爬取成功的页面将全部丢失,从而导致降低了爬取效率的技术问题。
技术领域
本发明涉及互联网技术应用领域,具体而言,涉及一种网页爬取的方法和装置。
背景技术
爬虫在爬取网络信息时,通常是通过链接来爬取每个页面的,在爬取过程中通过每个页面中的链接来获取下一个待爬取页面地址,然后进行爬取。由于这种基于链接的爬取方式,爬虫系统中通常会将每一次对链接的爬取分隔为一个任务,每个任务中基本包括以下几个步骤:根据ur l链接向网络发起请求;获取结果页面,并抽取链接;存储页面。
但是在网络中,有一些网页是分页显示的,对于这样的网页,如果还是将每个页面拆分成单个任务的话,往往会造成页面信息不连续,给后期内容重组带来很大的难度。所以通常会将这样的任务组合成一个任务,然后在系统内部直接翻页爬取,最终将所有文章页组合成一个结果保存起来。
这种情况下会遇到一个问题,如果翻页过程中出现不可控错误时,所有之前爬取成功的页面都会丢失。在页面页数十分多时,这种丢失会严重影响系统性能。
针对上述由于翻页过程中出现不可控错误时,之前爬取成功的页面将全部丢失,从而导致降低了爬取效率的的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种网页爬取的方法和装置,以至少解决由于翻页过程中出现不可控错误时,之前爬取成功的页面将全部丢失,从而导致降低了爬取效率的技术问题。
根据本发明实施例的一个方面,提供了一种网页爬取的方法,包括:在翻页爬取任务中针对每页的爬取结果进行存储,并依据每页对应的爬取结果生成对应的存储标识;在翻页爬取任务爬取页面失败时,依据存储标识对应的爬取进程执行爬取操作;在翻页爬取任务结束时,依据每页对应的存储标识提取对应的爬取结果;存储翻页爬取任务的爬取结果。
进一步地,依据每页对应的爬取结果生成对应的存储标识包括:依据爬取任务的任务整体标识、当前爬取内容标识和当前爬取页面的页数生成存储标识。
进一步地,在依据爬取任务的任务整体标识、当前爬取内容标识和翻页页数生成存储标识之后,方法还包括:依据存储标识执行后续翻页爬取。
进一步地,依据存储标识对应的爬取进程执行爬取操作包括:依据存储标识提取对应的爬取进程;依据爬取进程执行后续爬取操作。
进一步地,依据每页对应的存储标识提取对应的爬取结果包括:依据每页对应的存储标识下载对应的爬取结果;依据预设次序对爬取结果进行排序,得到待存储的全部页面的翻页爬取任务的爬取结果。
根据本发明实施例的另一方面,还提供了一种网页爬取的装置,包括:标识生成模块,用于在翻页爬取任务中针对每页的爬取结果进行存储,并依据每页对应的爬取结果生成对应的存储标识;进程执行模块,用于在翻页爬取任务爬取页面失败时,依据存储标识对应的爬取进程执行爬取操作;提取模块,用于在翻页爬取任务结束时,依据每页对应的存储标识提取对应的爬取结果;存储模块,用于存储翻页爬取任务的爬取结果。
进一步地,标识生成模块包括:标识生成单元,用于依据爬取任务的任务整体标识、当前爬取内容标识和当前爬取页面的页数生成存储标识。
进一步地,装置还包括:爬取模块,用于在依据爬取任务的任务整体标识、当前爬取内容标识和翻页页数生成存储标识之后,依据存储标识执行后续翻页爬取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611089766.7/2.html,转载请声明来源钻瓜专利网。