[发明专利]一种反爬虫的方法、装置、设备及存储介质在审
申请号: | 201910294378.X | 申请日: | 2019-04-12 |
公开(公告)号: | CN110020512A | 公开(公告)日: | 2019-07-16 |
发明(设计)人: | 孟凡杰 | 申请(专利权)人: | 重庆天蓬网络有限公司 |
主分类号: | G06F21/30 | 分类号: | G06F21/30 |
代理公司: | 北京酷爱智慧知识产权代理有限公司 11514 | 代理人: | 梁爱荣 |
地址: | 401135 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 爬虫 异常用户 参数集 存储介质 访问日志 站点 服务器资源 预设规则库 用户体验 预设规则 运行效率 自动识别 访问 消耗 查询 分析 | ||
本发明公开了一种反爬虫的方法、装置、设备及存储介质;通过查询访问日志以确定是否出现异常访问;在确定出现异常访问后,根据预设规则库中的预设规则分析访问日志,以确定异常用户参数集;将所述异常用户参数集加入黑名单;根据所述黑名单内所述异常用户参数集对所述异常用户进行封禁操作;达到了自动识别爬虫用户和封禁爬虫用户的目的,起到了降低由于大量爬虫访问导致服务器资源消耗过度的作用,保护了站点资源,从而提高了用户体验和提高了站点运行效率。
技术领域
本发明涉及信息安全技术领域,具体涉及一种反爬虫的方法、装置、设备及存储介质。
背景技术
网络爬虫是一种自动执行的计算机程序或脚本,网络爬虫根据设定规则访问万维网站点并抓取站点页面信息,这种抓取通常是大批量全站完全抓取或部分分支完全抓取,并且对频繁更新的页面会进行高密度的多次抓取。网络爬虫对站点的大量访问可能造成站点的服务器资源过度消耗从而影响正常用户的访问,或者网络爬虫抓取大量站点信息可能造成站点信息被不正当的商业使用。目前通常的反爬虫方法由站点维护人员人工监测访问站点的IP地址的访问行为来判断是否为爬虫,上述反爬虫的方法需要站点维护人员人工监测导致工作效率低,从而需要一种自动识别并封禁爬虫的方法。
发明内容
针对现有技术中的缺陷,本发明提供一种反爬虫方法、装置、设备及存储介质,用于解决自动识别并封禁爬虫的问题。
一方面,本发明提供了一种反爬虫方法,包括:通过查询访问日志以确定是否出现异常访问;在确定出现异常访问后,根据预设规则库中的预设规则分析访问日志,以确定异常用户参数集;将所述异常用户参数集加入黑名单;根据所述黑名单内所述异常用户参数集对所述异常用户进行封禁操作。
优选的,所述通过访问日志确定是否出现访问异常包括:根据触发条件查询访问日志;根据第一预设时间区间内第一预设条件的第一阈值和访问日志确定是否出现异常访问。
优选的,所述反爬虫方法的所述预设规则库的预设规则包括以下规则至少之一:访问行为是否超过第二预设时间区间内第二预设条件的第二阈值;访问请求头中是否包含预设字段集中的关键字;访问请求头中是否包含请求头白名单中的关键字;访问请求IP地址是否在IP地址白名单内。
优选的,所述预设字段集包括以下关键字至少之一:
Java,Python,C++,C#,PHP,Perl、PHP和GO。
优选的,所述将所述异常用户加入黑名单前还包括:将所述异常用户参数集加入再次验证列表作为再次验证用户;接收所述再次验证用户页面请求;发送手动验证页面给所述再次验证用户;接收所述再次验证用户的所述手动验证页面的返回结果;根据所述的返回结果确定是否将再次验证用户加入黑名单。
优选的,所述异常用户参数集至少包括用户IP地址。
优选的,所述请求头白名单内字段包括搜索引擎请求头字段。
另一方面,本发明提供了一种反爬虫装置,包括:查询模块、分析模块、黑名单模块和过滤模块;所述查询模块被配置为通过查询访问日志确定是否出现异常访问;所述分析模块被配置为根据预设规则库的预设规则分析访问日志,以确定异常用户参数集;所述黑名单模块被配置为将所述异常用户参数集加入黑名单;所述过滤模块被配置为根据所述黑名单内所述异常用户参数集对所述异常用户进行封禁操作。
另一方面,本发明提供了一种反爬虫设备,包括:至少一个处理器和能够存储在处理器上运行的计算机指令的存储器;其中,所述处理器用于运行所述计算机指令实现上述的反爬虫方法。
另一方面,本发明提供了一种存储介质,所述存储介质中存储有计算机指令,其特征在于,所述计算机指令被处理器执行时实现上述的反爬虫方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆天蓬网络有限公司,未经重庆天蓬网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910294378.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种物品的管理方法及装置
- 下一篇:签名记录方法、验证方法、装置及存储介质