[发明专利]网络爬虫检测方法、装置、存储介质及电子设备有效
申请号: | 201911314499.2 | 申请日: | 2019-12-19 |
公开(公告)号: | CN111181933B | 公开(公告)日: | 2022-04-26 |
发明(设计)人: | 陈亮;钟嘉琳 | 申请(专利权)人: | 贝壳技术有限公司 |
主分类号: | H04L9/40 | 分类号: | H04L9/40;H04L67/1095 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 郑红娟;宋志强 |
地址: | 300280 天津市经济技术开发区南*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网络 爬虫 检测 方法 装置 存储 介质 电子设备 | ||
本申请公开了一种网络爬虫检测方法、装置、存储介质及电子设备,涉及互联网技术。具体方案包括:获取目标请求端对受保护网站的当前访问请求产生的当前访问数据;获取所述目标请求端的历史访问数据,并根据所述当前访问数据及所述历史访问数据,确定所述目标请求端对所述受保护网站中的页面的访问重复率;根据所述访问重复率,确定网站服务端分别执行至少一种访问策略时各自的收益值;根据所述至少一种访问策略的收益值,确定所述当前访问请求的爬虫概率;根据所述爬虫概率与预设爬虫概率阈值,确定所述当前访问请求是否是网络爬虫发出的访问请求。本申请可以有效检测采用低端爬虫技术至高端爬虫技术的网络爬虫,有效提升对网络爬虫的检测能力。
技术领域
本申请涉及互联网技术,特别是涉及一种网络爬虫检测方法、装置、存储介质及电子设备。
背景技术
网络爬虫起始于搜索引擎领域,搜索引擎用网络爬虫收集网站信息,将收集的网站信息组合后确定检索关键词,方便用户使用检索关键词进行搜索。遵守robots协议的网站会在根目录下创建robots.txt文件,在robots.txt文件中明确规定允许使用网络爬虫的搜索引擎名称和允许网络爬虫爬取的目录。但是,现在出现了越来越多不遵守robots协议的网络爬虫,对网站信息进行肆意的爬取和公开展示,因此,为了保护网站信息的独有性,研究反爬虫策略十分重要。
现有的反爬虫策略主要根据访问请求的统计数据或特征数据,确定发出访问请求的目标请求端是否为网络爬虫。现有的反爬虫策略仅能识别出大部分采用低端爬虫技术的网络爬虫,但是现在越来越多的网络爬虫采用控制访问频率、利用分布式请求端、基于浏览器解析等方式来绕过传统的反爬虫策略,现有的反爬虫策略对网络爬虫检测能力较低。
发明内容
有鉴于此,本申请的主要目的在于提供一种网络爬虫检测方法,该方法可以有效检测采用低端爬虫技术至高端爬虫技术的网络爬虫,有效提升对网络爬虫的检测能力。
为了达到上述目的,本申请提出的技术方案为:
第一方面,本申请实施例提供一种网络爬虫检测方法,包括以下步骤:
获取目标请求端对受保护网站的当前访问请求产生的当前访问数据;
获取所述目标请求端的历史访问数据,并根据所述当前访问数据及所述历史访问数据,确定所述目标请求端对所述受保护网站中的页面的访问重复率;
根据所述访问重复率,确定网站服务端分别执行至少一种访问策略时各自的收益值;
根据所述至少一种访问策略的收益值,确定所述当前访问请求的爬虫概率;
根据所述爬虫概率与预设爬虫概率阈值,确定所述当前访问请求是否是网络爬虫发出的访问请求。
一种可能的实施方式中,所述获取目标请求端对受保护网站的当前访问请求产生的当前访问数据的步骤,包括:
将所述目标请求端对所述受保护网站的所述当前访问请求产生的数据流进行镜像,得到第一镜像数据;
将所述第一镜像数据作为所述当前访问数据获取。
一种可能的实施方式中,所述获取目标请求端对受保护网站的当前访问请求产生的当前访问数据的步骤,包括:
将对所述受保护网站所在的网络端口的访问请求产生的数据流进行镜像,得到第二镜像数据;
根据所述受保护网站的域名和所述目标请求端的地址,从所述第二镜像数据中确定所述当前访问数据。
一种可能的实施方式中,所述获取目标请求端对受保护网站的当前访问请求产生的当前访问数据的步骤之后,所述获取所述目标请求端的历史访问数据的步骤之前,所述方法还包括:
基于所述当前访问数据的统计数据或特征数据,确定所述目标请求端是否是网络爬虫;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贝壳技术有限公司,未经贝壳技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911314499.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:定子铁芯外圆加工工装
- 下一篇:显示界面控制方法、装置、电子设备及介质