[发明专利]一种selenium支持自定义请求头的方法、电子设备和介质在审
申请号: | 201910695785.1 | 申请日: | 2019-07-30 |
公开(公告)号: | CN110377813A | 公开(公告)日: | 2019-10-25 |
发明(设计)人: | 郑灿金;朱小军 | 申请(专利权)人: | 广州吉信网络科技开发有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/955 |
代理公司: | 广东翰锐律师事务所 44442 | 代理人: | 陈业胜;苏少华 |
地址: | 510000 广东省广州市天*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 扩展功能 权限扩展 自定义 字段 网络请求 浏览器 调用 浏览器支持 电子设备 获取数据 接口添加 文件打包 文件执行 限定条件 加载 减小 打包 网页 权限 计算机 概率 网络 | ||
本发明公开了一种selenium支持自定义请求头的方法,包括如下步骤:浏览器权限扩展:获取浏览器扩展功能所需的权限,使得浏览器支持自定义修改网络请求的请求头中字段的内容,并将权限扩展文件打包;selenium增加扩展功能:打包的权限扩展文件通过接口添加至selenium的调用字段中用于启用扩展功能;selenium执行扩展功能:每次通过selenium请求网络时,调用权限扩展文件执行自定义修改请求头中字段的内容的扩展功能。本方法通过使得selenium支持修改网络请求头中的所有字段,可以降低被限定条件加载的网页限制的概率,使用简单且计算机的负担小,减小了获取数据的成本。
技术领域
本发明涉及互联网数据采集技术,尤其是一种selenium支持自定义请求头的方法、电子设备和介质。
背景技术
随着大数据技术的快速发展,数据作为其根本研究对象,发挥着越来越举足轻重的作用。数据如何高速获取,成为了目前研究的重要课题之一,爬虫技术作为互联网数据获取的基本技术手段,可以自动地获取互联网内的信息。
当前互联网中存在很多不友好爬虫,如在一定时间内被爬的次数过高,会给网站和服务器带来过高的负荷,使其难以正常运行,因此,很多网站都会通过很多方式来阻止爬虫对本网站的信息抓取,一般会通过增加页面加载过程的复杂度,和识别访问的请求头中的信息来判断是否为爬虫而非正常访问的用户。
Selenium是现有的一款开源友好的web端自动化爬虫工具,可以直接运行在浏览器中,用来模拟用户操作。其具有多种优势,例如支持多种浏览器(如IE、Firefox、Safari、Chrome、Android手机浏览器等)、多种语言(如Java、C#、Python、Ruby、PHP等)、多种操作系统(如Java、C#、Python、Ruby、PHP等),因此具有广泛的使用基础。
在真实的http请求数据包中,必须包含请求头headers,请求头会包含多个必要字段,用于告知被访问的服务器这个数据包的来源和身份,这些必要字段有Accept-Encoding、Accept-Language、Cookie、Host、User-Agent等。但是由于原始的Selenium开源框架本神的技术缺陷,通过selenium访问时,仅支持修改User-Agent字段,其余字段无法修改,这种限制使得部分复杂的自动化业务无法实现,在复杂的动态JS加载的部分网页数据无法成功提取,或容易被服务器识别为禁止访问的爬虫链接从而禁止访问。
为了解决这个技术问题,现有技术中有采用了其它技术与修改User-Agent字段的功能相结合的方法,例如随机代理IP、随机请求间隔、切换浏览器等方式,来使得爬虫操作更接近实际用户操作。然而这些方法中随机的内容所需成本较高,需同时运行的进程较多容易使得计算机负荷过高,分析使用起来较难、获取数据成本也较高。
发明内容
本发明目的在于针对上述背景技术中存在的问题,提供一种selenium支持自定义请求头的方法、电子设备和介质,通过使得selenium支持修改网络请求头中的所有字段,降低被限定条件加载的网页限制的概率,使用简单且计算机的负担小,减小了获取数据的成本。
为了达到上述目的,本发明的技术方案有:
一种selenium支持自定义请求头的方法,包括如下步骤:
浏览器权限扩展:获取浏览器扩展功能所需的权限,使得浏览器支持自定义修改网络请求的请求头中字段的内容,并将权限扩展文件打包;
selenium增加扩展功能:打包的权限扩展文件通过接口添加至selenium的调用字段中用于启用扩展功能;
selenium执行扩展功能:每次通过selenium请求网络时,调用权限扩展文件执行自定义修改请求头中字段的内容的扩展功能。
优选地,每次执行所述selenium执行扩展功能时,修改请求头中至少4个字段的内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州吉信网络科技开发有限公司,未经广州吉信网络科技开发有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910695785.1/2.html,转载请声明来源钻瓜专利网。