[发明专利]一种网络爬虫识别方法在审

申请号：	202011628116.1	申请日：	2020-12-31
公开（公告）号：	CN112583857A	公开（公告）日：	2021-03-30
发明（设计）人：	李茜;阮沐阳;刘慧斯;张桂福	申请（专利权）人：	湘潭大学
主分类号：	H04L29/06	分类号：	H04L29/06;G06F16/955;G06F16/951
代理公司：	暂无信息	代理人：	暂无信息
地址：	411105 湖南***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种网络爬虫识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种网络爬虫识别方法，本方法的步骤包括：S1、设置黑名单，将已知的爬虫请求对应的源IP地址记录在黑名单中；S2、对接收到的请求的源IP地址进行判断，如果在黑名单中，则将该请求识别为网络爬虫，并执行步骤S5；S3、统计请求次数，计算请求频率，如果平均每分钟内请求次数大于60次，则将该请求识别为网络爬虫，将该请求的源IP加入黑名单，并执行步骤S5；S4、对接收到的请求的URL链接进行判断，如果为特殊设置的URL则将该请求识别为网络爬虫，并将该请求的源IP加入黑名单；S5、结束识别。本方法通过预设黑名单和对接收到的请求进行多次识别判断，能够有效的提高爬虫识别的效率和正确率。

技术领域

本发明涉及网络安全技术领域，尤其涉及一种网络爬虫识别方法。

背景技术

爬虫技术的更新换代为搜索引擎提供了很好的技术支持，但是很多不友好的爬虫并不遵循通用的reboots协议，未经过平台允许擅自索引平台数据，不仅有可能泄露用户隐私信息，也会造成平台的服务器压力增大。为了防范这种恶意爬虫，防爬虫技术应运而生。

采用User-Agent的方法，通过WEB访问日志或抓包获取部分网络爬虫的请求特征，如User-Agent及其他HTTP请求头信息，设置相应的拦截规则，拦截网络爬虫的请求。但是，User-Agent及HTTP请求头信息都可以自定义，通过随机化这些值，就可绕过设置的网络爬虫拦截规则，防护效果并不理想。

使用其他形式的验证码进行人机识别时，由于网络爬虫不能直接输入正确的验证码，所以网络爬虫不能对网站内容进行抓取，但对正常访问的用户体验不好，需要频繁的输入验证码。

发明内容

本发明针对网络爬虫识别的问题，克服现有技术存在的不足，提出一种网络爬虫识别方法，本方法通过预设黑名单和对接收到的请求进行多次识别判断，能够有效的提高爬虫识别的效率和正确率。

本发明采用的技术方案如下。

一种网络爬虫识别方法，其包括如下步骤。

S1、设置黑名单，将已知的爬虫请求对应的源IP地址记录在黑名单中。

S2、对接收到的请求的源IP地址进行判断，如果在黑名单中，则将该请求识别为网络爬虫，并执行步骤S5。

S3、统计请求次数，计算请求频率，如果平均每分钟内请求次数大于60次，则将该请求识别为网络爬虫，将该请求的源IP加入黑名单，并执行步骤S5。

S4、对接收到的请求的URL链接进行判断，如果为特殊设置的URL则将该请求识别为网络爬虫，并将该请求的源IP加入黑名单。

S5、结束识别。

进一步地，将IP地址记录在黑名单中的有效时间为6小时，IP地址记录在黑名单中6小时后将自动删除该IP地址。

进一步地，所述步骤S2中，进行判断需要将接收到的请求的源IP地址与黑名单中全部的IP地址进行比对。