[发明专利]爬虫访问拦截方法及设备、服务器和计算机可读存储介质在审
申请号: | 201911133057.8 | 申请日: | 2019-11-19 |
公开(公告)号: | CN110958228A | 公开(公告)日: | 2020-04-03 |
发明(设计)人: | 张阳 | 申请(专利权)人: | 用友网络科技股份有限公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06 |
代理公司: | 北京友联知识产权代理事务所(普通合伙) 11343 | 代理人: | 尚志峰;王淑梅 |
地址: | 100094*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 爬虫 访问 拦截 方法 设备 服务器 计算机 可读 存储 介质 | ||
本发明提供了一种爬虫访问拦截方法及设备、服务器和计算机可读存储介质,其中,反爬虫访问拦截方法包括:接收访问请求,对访问请求进行解析以得到访问特征;获取拦截策略,基于访问特征符合拦截策略的情况,拒绝访问请求。应用了本发明提供的技术方案,通过设置反爬虫拦截策略,通过反爬虫拦截策略对接收到的访问请求的访问特征进行比对,以判断访问请求是否为爬虫访问,进而有效地对爬虫访问进行拦截,避免了爬虫访问对服务器性能造成影响,改善了服务器的运行环境,保证了服务器的运行效率。
技术领域
本发明涉及数据反爬技术领域,具体而言,涉及一种爬虫访问拦截方法、一种爬虫访问拦截设备、一种服务器和一种计算机可读存储介质。
背景技术
在相关技术中,互联网中数据具有极高的价值和重要性,因此存在大量的通过爬虫的方式获取数据的恶意行为,而爬虫行为会对服务器性能造成极大影响,甚至引起网络宕机,因此如何有效地对“爬虫”行为进行拦截,是目前亟待解决的问题。
发明内容
本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。
为此,本发明的第一方面提出一种反爬虫访问拦截方法。
本发明的第二方面提出一种反爬虫访问拦截设备。
本发明的第三方面提出一种服务器。
本发明的第四方面提出一种计算机可读存储介质。
有鉴于此,本发明的第一方面提供了一种反爬虫访问拦截方法,包括:接收访问请求,对访问请求进行解析以得到访问特征;获取拦截策略,基于访问特征符合拦截策略的情况,拒绝访问请求。
在该技术方案中,服务器中设置有拦截策略,在接收到针对服务器数据库内容的访问请求时,根据该访问请求对应的访问特征是否符合拦截策略,对该访问请求是否为“爬虫”访问进行判断,如果判定某个访问请求是爬虫类访问,则决绝该访问请求,避免爬虫访问对服务器性能造成影响。
应用了本发明提供的技术方案,通过设置反爬虫拦截策略,通过反爬虫拦截策略对接收到的访问请求的访问特征进行比对,以判断访问请求是否为爬虫访问,进而有效地对爬虫访问进行拦截,避免了爬虫访问对服务器性能造成影响,改善了服务器的运行环境,保证了服务器的运行效率。
另外,本发明提供的上述技术方案中的反爬虫拦截方法还可以具有如下附加技术特征:
在上述技术方案中,访问特征包括:访问请求对应的互联网协议地址,访问请求对应的目标服务类型;拦截策略包括:第一待拦截服务,第一访问阈值;若目标服务类型为第一待拦截服务,且在预设时长内,互联网协议地址对应发出访问请求的数量超过第一访问阈值,确定访问特征符合拦截策略。
在该技术方案中,访问请求对应的访问特征可以包括互联网协议地址(IP地址,Internet Protocol Address)和该访问请求对应的目标服务类型。其中,服务器所提供的服务类型可以大致分为两类,一种是普通服务,一种是热点服务。普通服务主要包括未被发布到网络中的服务,如系统管理员使用的服务,该类服务不会被爬虫访问恶意捕获,因此针对普通服务无需进行爬虫拦截。
热点服务指的是发布到互联网中,可被用户访问的服务,爬虫访问针对的一般就是指这类服务,因此本发明将热点服务标记位第一待拦截服务,并通过拦截策略,对目标服务类型为第一待拦截服务的访问请求进行策略拦截。具体地,如果接收到的访问请求对应的目标服务类型是第一待拦截服务时,获取预设市场内,该访问请求的IP地址所发出的访问请求总数量,如果一个IP地址在预设时长内发出的访问请求数量超过了第一访问阈值,则认定该访问请求是爬虫访问的可能较高,即该访问请求符合拦截策略,拒绝该访问请求以保证服务器的性能不受影响。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于用友网络科技股份有限公司,未经用友网络科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911133057.8/2.html,转载请声明来源钻瓜专利网。