[发明专利]防爬虫的方法在审
申请号: | 201811381554.5 | 申请日: | 2018-11-20 |
公开(公告)号: | CN109714313A | 公开(公告)日: | 2019-05-03 |
发明(设计)人: | 赵俊池;陈四强;刘天翔 | 申请(专利权)人: | 远江盛邦(北京)网络安全科技股份有限公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06 |
代理公司: | 北京中企鸿阳知识产权代理事务所(普通合伙) 11487 | 代理人: | 李文丽 |
地址: | 100084 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 爬虫 源IP地址 内置 预设 拦截 访问频率 请求访问 响应体 误报 返回 | ||
本发明提出了一种防爬虫的方法,包括:步骤S1,判断接收到的请求的源IP地址是否在预设黑名单中,如果是则执行步骤S4,否则执行步骤S2;步骤S2,对接收到的请求的URL链接进行判断,如果为内置隐藏URL则将该请求的源IP地址加入至所述预设黑名单中,执行步骤S4,如果不是内置隐藏URL则执行步骤S3;步骤S3,对接收到的请求,在返回的响应体中加入一条隐藏URL链接;步骤S4,拦截所述请求;步骤S5,允许所述请求。本发明通过请求访问的URL来判断请求是否为爬虫,从根本上避免了误报,解决了现有技术中通过访问频率来拦截爬虫所带来的问题。
技术领域
本发明涉及网络安全技术领域,特别涉及一种防爬虫的方法。
背景技术
现有技术中存在防爬虫的方法,主要是根据用户的访问频率来判断用户的请求是否合法,一旦访问频率超过设定的阈值,就会通过暂时阻止用户访问或让用户输入验证码的方式来防止恶意爬虫。
现有技术中的防爬虫方法中,如果将访问频率的阈值设置过高,则会造成防护力度不够,恶意爬虫可以在该阈值范围内继续爬取网站信息;如果阈值设置过低,则可能会影响用户正常访问网站。
因此需要设计新的防爬虫方法,以便更好地做好爬虫防护工作。
发明内容
本发明的目的旨在至少解决所述技术缺陷之一。
为此,本发明的目的在于提出一种防爬虫的方法。
为了实现上述目的,本发明的实施例提供一种防爬虫的方法,包括如下步骤:
步骤S1,判断接收到的请求的源IP地址是否在预设黑名单中,如果是则执行步骤S4,否则执行步骤S2;
步骤S2,对接收到的请求的URL链接进行判断,如果为内置隐藏URL则将该请求的源IP地址加入至所述预设黑名单中,执行步骤S4,如果不是内置隐藏URL则执行步骤S3;
步骤S3,对接收到的请求,执行步骤S5,并在返回的响应体中加入一条隐藏URL链接;
步骤S4,拦截所述请求;
步骤S5,允许所述请求。
进一步,所述预设黑名单记录的IP地址设置有过期时间,如果超过设定的过期时间后,则自动删除黑名单中该IP地址的记录,允许该IP地址又可正常访问网站。
进一步,在所述步骤S2中,所述内置隐藏URL的格式为:<a href=URL_LINK></a>。
进一步,所述内置隐藏URL在浏览器中是不可见的,因此用户正常访问网站时是不会点击到该URL链接;若有请求该URL链接,则判断该请求不是人为操作,而是爬虫爬取网站。
进一步,所述内置隐藏URL定期进行更新。
根据本发明实施例的防爬虫的方法,通过请求访问的URL来判断请求是否为爬虫,从根本上避免了误报,解决了现有技术中通过访问频率来拦截爬虫所带来的问题。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的防爬虫方法的流程图。
具体实施方式
下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于远江盛邦(北京)网络安全科技股份有限公司,未经远江盛邦(北京)网络安全科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811381554.5/2.html,转载请声明来源钻瓜专利网。