[发明专利]页面数据爬取方法、装置、设备和计算机可读存储介质在审
申请号: | 202110496931.5 | 申请日: | 2021-05-07 |
公开(公告)号: | CN113076460A | 公开(公告)日: | 2021-07-06 |
发明(设计)人: | 侯淑慧;马维士;李岩 | 申请(专利权)人: | 北京华云安信息技术有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955;G06F16/957 |
代理公司: | 北京华专卓海知识产权代理事务所(普通合伙) 11664 | 代理人: | 王一;赵真 |
地址: | 100094 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 页面 数据 方法 装置 设备 计算机 可读 存储 介质 | ||
本公开的实施例提供了页面数据爬取方法、装置、设备和计算机可读存储介质。所述方法包括:向待请求的目标页面中添加动态注入代码;在接收到针对所述目标页面的页面访问请求时,根据所述动态注入代码确定所述目标页面中的动态页面元素;爬取所述动态页面元素的页面数据。以此方式,可以在不需要用户手动点击该动态页面元素的基础上,即可自动确认页面中的所有动态元素,进而实现该动态页面元素对应的页面信息的自动爬取,从而确保页面内容全面获取,也优化了爬取速度和爬取性能。
技术领域
本公开的实施例一般涉及互联网领域,并且更具体地,涉及页面数据爬取方法、装置、设备和计算机可读存储介质。
背景技术
随着互联网信息爆炸式增长,每一天互联网中的数据都呈现几何式的堆加。用户需要的信息往往会淹没于大量无关信息中,利用搜索引擎获取感兴趣的信息已经成为人们获取信息较为便捷的方式。作为搜索引擎的基础构件之一的网络爬虫,需要从互联网上搜集信息,为用户提供数据来源。搜索结果是否丰富、获得的信息是否没有重合,均与网络爬虫的效率紧密相关。
现在互联网中大部分的web页面都是动态的,经常逛的网站例如京东、淘宝等,商品列表都是js(JavaScript),并有Ajax渲染,然后这种动态页面中的动态页面元素有时需要用户手动点击才知道是动态元素,才能进一步获取该动态元素对应的页面内容,而一旦用户未点击该动态元素,页面内容将获取不全,爬取的数据信息较少,性能也较差。
发明内容
根据本公开的实施例,提供了一种页面数据爬取方案。
在本公开的第一方面,提供了一种面数据爬取方法。该方法包括:
向待请求的目标页面中添加动态注入代码;
在接收到针对所述目标页面的页面访问请求时,根据所述动态注入代码确定所述目标页面中的动态页面元素;
爬取所述动态页面元素的页面数据。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述动态注入代码确定所述目标页面中的动态页面元素,包括:
确定当前的页面爬取深度;
确定预先配置的最大页面爬取深度;
判断所述当前的页面爬取深度是否小于所述最大页面爬取深度;
若小于,则根据所述动态注入代码确定所述目标页面中的动态页面元素。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述动态注入代码确定所述目标页面中的动态页面元素,包括:
通过所述动态注入代码为所述目标页面生成的动态元素标记,确定所述动态页面元素,其中,
所述动态注入代码用于确定所述目标页面中的超链接或者可点击事件,并为所述超链接或者可点击事件生成所述动态元素标记。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述方法还包括:
确定浏览器的属性信息和/或爬虫所需的信息;
根据所述浏览器的属性信息和/或爬虫所需的信息,生成所述动态注入代码。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述爬取所述动态页面元素的页面数据,包括:
遍历所述动态页面元素;
访问所述动态页面元素对应的所述目标页面的子页面。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京华云安信息技术有限公司,未经北京华云安信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110496931.5/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置