[发明专利]网络爬虫的识别方法及系统有效
申请号: | 201610134556.9 | 申请日: | 2016-03-09 |
公开(公告)号: | CN105577701B | 公开(公告)日: | 2018-11-09 |
发明(设计)人: | 崔广宇;李巍 | 申请(专利权)人: | 携程计算机技术(上海)有限公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06 |
代理公司: | 上海弼兴律师事务所 31283 | 代理人: | 薛琦;王聪 |
地址: | 200335 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网络 爬虫 识别 方法 系统 | ||
本发明公开了一种网络爬虫的识别方法及系统,该识别方法包括:客户端将预设URL链接的请求发送至服务器;服务器根据请求生成一第一密钥值,并将加密后的第一密钥值以及生成的JS解密脚本发送至客户端;客户端根据加密后的第一密钥值和JS解密脚本生成第二密钥值,并将其发送至服务器;服务器判断是否存在与第二密钥值相同的第一密钥值,若否,则确定客户端对应的用户为网络爬虫。与现有技术相比,本发明可以使得网络爬虫在首次访问服务器时就将其识别出来,无需进行大量访问频率的检测,节约了CPU资源,提高了识别效率。同时,无需对不同URL链接的请求进行第一密钥值的储存,大大节约了服务器的存储空间。
技术领域
本发明涉及计算机技术领域,特别涉及一种网络爬虫的识别方法及系统。
背景技术
随着互联网的发展,目前互联网上的爬虫量日益增加,爬虫会伪造用户行为,不断地访问服务器从而获取信息,这样会大大拖慢服务器的运行速度,尤其是当请求的链接需要大量的计算才能得出的时候,同时还会有信息被批量获取的风险。
目前主流的反爬虫手段是根据访问频率,对高频率访问的客户端IP地址进行一定的限制。这种做法有以下缺点:首先,需要记录大量的数据,对服务器的存储空间有极高的要求;其次,具有一定的滞后性,需要爬虫访问一定的时间才可以确定对方是爬虫,而这个时候爬虫已经拿到足够的信息了;最后,由于计算量频繁,即使没有爬虫也需要不断地运算,对服务器造成的压力很大。
发明内容
本发明要解决的技术问题是为了克服现有技术中根据访问频率识别网络爬虫存在占用服务器存储空间、具有滞后性以及计算量频繁的缺陷,提供一种网络爬虫首次访问就能被识别以及节约服务器存储空间的网络爬虫识别方法及系统。
本发明是通过下述技术方案来解决上述技术问题的:
一种网络爬虫的识别方法,其特点在于,包括以下步骤:
S1、客户端将一预设URL(Uniform Resource Locator,统一资源定位符)链接的请求发送至服务器;
S2、该服务器根据该预设URL链接的请求生成一第一密钥值,在对该第一密钥值进行加密的过程中生成一JS(JavaScript)解密脚本,并将加密后的第一密钥值以及该JS解密脚本发送至该客户端,其中,该JS解密脚本用于对该加密后的第一密钥值进行解密;
S3、该客户端根据该加密后的第一密钥值和该JS解密脚本生成一第二密钥值,并将该第二密钥值发送至该服务器;
S4、该服务器判断是否存在与该第二密钥值相同的第一密钥值,若否,则确定该客户端对应的用户为网络爬虫。
本方案中,向服务器发送请求的客户端对应的用户可以为正常用户,也可以为网络爬虫。
步骤S3中,当客户端对应的用户为正常用户时,客户端基于加密后的第一密钥值运行JS解密脚本生成第二密钥值,且该第二密钥值与该第一密钥值相同;当客户端对应的用户为网络爬虫时,客户端不识别JS解密脚本,此时客户端生成的第二密钥值与服务器生成的第一密钥值不相同,或者第二密钥值为空,因此可以证明客户端向服务器发送的预设URL链接的请求是伪造的。
本方案通过将服务器生成的第一密钥值与客户端生成的第二密钥值进行比较,并根据比较结果实现网络爬虫的识别,可以使得网络爬虫在首次访问服务器的时候就将其识别出来,与现有技术相比,无需进行大量访问频率的检测,节约了CPU(中央处理器)资源,提高了识别效率。
本方案中,服务器每次接收到的预设URL链接的请求可以相同,也可以不同,但是服务器在每次接收到预设URL链接时都会基于预设URL链接重新生成第一密钥值,因此服务器无需针对不同URL链接的请求进行第一密钥值的储存,大大节约了服务器的存储空间。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于携程计算机技术(上海)有限公司,未经携程计算机技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610134556.9/2.html,转载请声明来源钻瓜专利网。