[发明专利]爬虫检测的方法及装置有效
申请号: | 201710939659.7 | 申请日: | 2017-09-30 |
公开(公告)号: | CN109600272B | 公开(公告)日: | 2022-03-18 |
发明(设计)人: | 潘峰 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | H04L43/04 | 分类号: | H04L43/04;G06F16/951 |
代理公司: | 北京鼎佳达知识产权代理事务所(普通合伙) 11348 | 代理人: | 王伟锋;刘铁生 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 爬虫 检测 方法 装置 | ||
1.一种爬虫检测的方法,其特征在于,所述方法包括:
接收访问者对网站的访问请求后,获取所述访问请求中访问的目标链接;
判断所述目标链接是否为预设陷阱链接;
若所述目标链接为预设陷阱链接,则判断所述访问请求中是否携带有访问来源参考refer字段;
根据判断的结果确定所述访问者是否为爬虫;
将预设页面对应的标识信息确定为预设refer字段值;若所述访问请求中携带有refer字段,则判断所述refer字段的值是否等于所述预设refer字段值;若不等于预设refer字段值,则确定所述访问者为爬虫。
2.根据权利要求1所述的方法,其特征在于,在接收访问者对网站的访问请求之前,所述方法还包括:
将出现在网站中的预设页面上的指定链接设置为预设陷阱链接。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
将所有预设陷阱链接存储到陷阱链接库中;
所述判断所述目标链接是否为预设陷阱链接,包括:
将所述目标链接与所述陷阱链接库中的预设陷阱链接比对,确定所述目标链接是否为预设陷阱链接。
4.根据权利要求1-3中任一所述的方法,其特征在于,所述根据判断的结果确定所述访问者是否为爬虫,包括:
若所述访问请求中没有携带refer字段,则确定所述访问者为爬虫。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
若所述refer字段的值等于预设refer字段值,则根据访问记录库判断所述访问者在该次访问之前是否有访问所述预设页面的历史记录,所述访问记录库中保存最近预设时段内的访问记录;
若没有历史记录,则确定所述访问者为爬虫。
6.一种爬虫检测的装置,其特征在于,所述装置包括:
获取单元,接收访问者对网站的访问请求后,获取所述访问请求中访问的目标链接;
第一判断单元,用于判断所述目标链接是否为预设陷阱链接;
第二判断单元,用于若所述目标链接为预设陷阱链接,则判断所述访问请求中是否携带有访问来源参考refer字段;
第一确定单元,用于根据判断的结果确定所述访问者是否为爬虫;
第二确定单元,用于将所述预设页面对应的标识信息确定为预设refer字段值;
第三判断单元,用于若所述访问请求中携带有refer字段,则判断所述refer字段的值是否等于所述预设refer字段值;
第三确定单元,用于若不等于预设refer字段值,则确定所述访问者为爬虫。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
设置单元,用于在接收访问者对网站的访问请求之前,将出现在网站中的预设页面上的指定链接设置为预设陷阱链接。
8.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至权利要求5中任意一项所述的爬虫检测的方法。
9.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至权利要求5中任意一项所述的爬虫检测的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710939659.7/1.html,转载请声明来源钻瓜专利网。