[发明专利]通过浏览简档优化抓取请求在审
申请号: | 202180066211.3 | 申请日: | 2021-04-23 |
公开(公告)号: | CN116324766A | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | M·朱拉维希斯 | 申请(专利权)人: | 奥科西拉博斯私人有限责任公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535 |
代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 高欣 |
地址: | 立陶宛*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 通过 浏览 优化 抓取 请求 | ||
任务实现的系统和方法如本文所提供的那样被扩展并且通过客户向web爬虫提交请求的步骤来针对web爬网过程。该系统和方法允许使用定制的浏览简档丰富对web爬虫的请求,以便被归类为有机人类用户来获得目标内容。在一方面,一种由服务提供商基础设施从网络中提取和采集数据的方法至少包括以下示例性步骤中的一些步骤:接收和检查从用户设备接收到的请求的参数、使用预先建立的浏览简档丰富请求参数、通过所选择的代理向目标发送丰富的请求、从目标接收响应、剖析适合更新用于请求的浏览简档的响应元数据,以及根据从目标系统获得的对响应的检查将数据转发到用户设备。
技术领域
在至少一个方面,本公开涉及用于使用类人浏览行为的工件(artefacts)来优化web抓取(scraping)请求的参数以获得期望的数据,同时规避内容所有者的阻止的方法。
背景技术
以下部分将详细阐述和阐明解决方案采用、依赖或相关的技术概念。
web抓取(也称为屏幕抓取、数据挖掘、web收集)在其最一般意义上是从互联网自动采集数据。从技术上讲,它是通过除人类使用web浏览器或与应用编程接口(API)交互的程序以外的任何方式从互联网采集数据的做法。web抓取通常是通过执行程序来完成,该程序查询web服务器并自动请求数据,然后解析数据以提取所请求的信息。
web抓取器—为web抓取编写的程序—与其它访问信息的方式(如web浏览器)相比具有显著优势。web浏览器被设计为以人类可读的方式呈现信息,而web抓取器则擅长快速收集和处理大量数据。与通过监视器一次打开一个页面(如web浏览器所做那样)不同,web抓取器能够一次收集、处理、聚合和呈现由数千甚至数百万页面组成的大型数据库。
有时,网站允许另一种自动化方式经由API将其结构化数据从一个程序传输到另一个程序。通常,程序会经由超文本传输协议(HTTP)向API请求某种类型的数据,并且API会以结构化形式从网站返回此数据。它用作传输数据的中介。但是,使用API不被视为web抓取,因为API是由网站(或第三方)提供的,并且它消除了对web抓取器的需要。
API可以将格式良好的数据从一个程序传输到另一个程序,并且使用它的过程比构建web抓取器来获取相同数据更容易。但是,API并不总是可用于所需的数据。此外,API经常使用容量和速率限制并限制数据的类型和格式。因此,用户会对不存在API或API以任何方式限制的数据使用web抓取。
通常,web抓取包括以下步骤:从网站检索超文本标记语言(HTML)数据;解析目标信息的数据;保存目标信息;如果需要在另一页面上重复该过程。被设计用于执行所有这些步骤的程序被称为web抓取器。相关程序—web爬虫(也称为web蜘蛛)—是执行第一个任务的程序或自动化脚本,即它以自动化的方式导航web以检索所访问网站的原始HTML数据(该过程也称为建立索引)。
抓取活动可以由多种类型的抓取应用来进行/执行,通常分类如下:
浏览器—在计算设备内执行的应用,通常在最终用户会话的上下文中,其功能足以接受用户的请求、将其传递给目标Web服务器、处理来自Web服务器的响应,以及将结果呈现给用户。浏览器被认为是例如能够执行和解释JavaScript代码的启用用户侧脚本编写的工具。
无头浏览器—没有图形用户界面(GUI)的web浏览器。无头浏览器在类似于流行的web浏览器的环境中提供对网页的自动化控制,但经由命令行接口或使用网络通信执行。它们对于测试网页特别有用,因为它们能够像浏览器一样渲染和理解HTML,包括样式元素,诸如页面布局、颜色、字体选择以及JavaScript和AJAX的执行之类,这些在使用其它测试方法时通常不可用。可以识别两个主要用例:
-脚本化网页测试-目的是识别错误,而与用户活动非常相似是必要的。
-web抓取-必须与用户活动相似才能避免阻止,即请求应该具有有机Web浏览请求的所有属性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于奥科西拉博斯私人有限责任公司,未经奥科西拉博斯私人有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202180066211.3/2.html,转载请声明来源钻瓜专利网。