[发明专利]反爬虫系统及方法有效
申请号: | 201611183559.8 | 申请日: | 2016-12-20 |
公开(公告)号: | CN106657057B | 公开(公告)日: | 2020-09-29 |
发明(设计)人: | 柳超;梁双;闫肃;任靓;毕可 | 申请(专利权)人: | 北京金堤科技有限公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06 |
代理公司: | 北京远大卓悦知识产权代理事务所(普通合伙) 11369 | 代理人: | 史霞 |
地址: | 100084 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 爬虫 系统 方法 | ||
本发明公开了一种反爬虫系统,包括:分析模块,其判断访问行为是否正常;获取模块,其获取经所述分析模块判断为不正常访问行为的访问日志;学习模块,其具有可更新的黑名单规则库,所述学习模块根据不正常访问行为的访问日志提取出新的黑名单规则,以更新所述黑名单规则库;过滤模块,其禁止所述黑名单规则库所囊括的访问行为。本发明还提供了一种反爬虫方法。本发明一方面可以根据分析模块的分析进行反爬,另一方面学习模块能够从不正常访问行为的访问日志提取出新的黑名单规则,不断更新黑名单规则库来帮助反爬,因而兼具准确度和速度。
技术领域
本发明涉及反爬虫技术领域。更具体地说,本发明涉及能够自学习的反爬虫系统和方法。
背景技术
爬数据是指未经服务器主允许,通过软件程序模拟人的操作,抓取页面上的数据。常见的反爬数据的方法有两个:1)通过给页面设置验证码进行验证,因为这些验证码计算机难以识别。但是有的计算机还是能够识别,而有的会通过雇人识别的方式进行识别,因此不能根本解决问题;2)通过监测IP地址的异常行为,比如某个IP地址的客户端不是用浏览器调用,或者说调用速度过快,调用量过大等。设置规则,封这些IP。但是这样会导致反应速度比较慢,在发现异常之后,需要人为设定规则,才能实现反爬。而用户往往会通过IP代理的方式,调用各种伪IP来爬数据。因此,必须设计一种能够自己学习反爬规则的系统和方法。
发明内容
本发明的一个目的是提供一种能够从不正常访问行为的访问日志提取出新的黑名单规则,以不断更新黑名单规则库,进而来进行反爬的系统和方法。
为了实现根据本发明的这些目的和其它优点,提供了一种反爬虫系统,包括:
分析模块,其判断访问行为是否正常;
获取模块,其获取经所述分析模块判断为不正常访问行为的访问日志;
学习模块,其具有可更新的黑名单规则库,所述学习模块根据不正常访问行为的访问日志提取出新的黑名单规则,以更新所述黑名单规则库;
过滤模块,其禁止所述黑名单规则库所囊括的访问行为。
优选的是,所述的反爬虫系统,所述过滤模块存储可更新的IP黑名单,所述过滤模块将所述黑名单规则库所囊括的访问行为对应的IP地址加入所述IP黑名单,并禁止该IP地址的访问行为。
优选的是,所述的反爬虫系统,若一访问行为不被所述黑名单规则库囊括,则调用所述分析模块对该访问行为进行分析,如果该访问行为为不正常,则所述过滤模块禁止该访问行为;若一访问行为被所述黑名单规则库囊括,则不调用所述分析模块继续对该访问行为进行分析。
优选的是,所述的反爬虫系统,所述分析模块判断访问行为是否正常的方法包括:
获取访问行为在第一预设时间段内的访问次数,并且检测是否存在鼠标行为;
若在第一预设时间内的访问次数超过预设阈值,且未检测到鼠标行为,则判断该访问行为为不正常。
优选的是,所述的反爬虫系统,所述学习模块根据不正常访问行为的访问日志提取出新的黑名单规则的方法包括:
计算不正常访问行为在第一预设时间段内的单位时间访问次数和单位时间预设阈值;提取的新的黑名单规则为:访问行为的单位时间访问次数高于单位时间预设阈值。
优选的是,所述的反爬虫系统,所述分析模块判断访问行为是否正常的方法包括:
获取访问行为在各第二预设时间段内的访问次数以及各访问次数对应的时间点,然后将第二预设时间段划分为N个分时间段,分别计算各个分时间段的访问频率;
若N个分时间段的访问频率均低于第一阈值,则将下一个第二预设时间段划分为N/2个分时间段,然后分别计算各个分时间段的访问频率;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金堤科技有限公司,未经北京金堤科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611183559.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种生物特征信息管理方法及其系统
- 下一篇:事件资源分配方法和装置