[发明专利]一种网站服务器爬虫识别方法和装置在审
申请号: | 201710191636.2 | 申请日: | 2017-03-28 |
公开(公告)号: | CN107092660A | 公开(公告)日: | 2017-08-25 |
发明(设计)人: | 夏珺峥;乔宏利 | 申请(专利权)人: | 成都优易数据有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 成都弘毅天承知识产权代理有限公司51230 | 代理人: | 杨保刚 |
地址: | 611730 四川省成都市郫县德源镇(菁*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网站 服务器 爬虫 识别 方法 装置 | ||
1.一种网站服务器爬虫识别方法,其特征在于,包括以下步骤:
S1:依据用户IP地址对访问用户进行标记;
S2:对用户访问请求进行划分,将用户访问请求中请求资源、请求域名、子域名、访问路径相同的用户访问请求归为相同类型的访问请求;
S3:依据每类访问请求的资源类型划分出核心资源访问请求;
S4:对访问用户的核心资源访问请求进行连续性判断,对非连续性访问判断为非爬虫访问,对连续性访问继续进行下一步;
S5:依据访问用户的核心资源访问请求的内容连续性、访问持续时间、访问频度进行爬虫访问判断;
S6:将判断为爬虫访问的用户进行处理。
2.根据权利要求1所述的一种网站服务器爬虫识别方法,其特征在于,所述核心资源访问请求划分方法为:请求资源类型为展示数据内容的协议请求为核心资源访问请求。
3.根据权利要求1所述的一种网站服务器爬虫识别方法,其特征在于,所述连续访问判断为:
设定连续访问阈值,当访问用户的相邻两次核心资源访问请求的时间小于连续访问阈值时判定用户为连续性访问。
4.根据权利要求1所述的一种网站服务器爬虫识别方法,其特征在于,所述内容连续性的爬虫访问判断方法为:
对时间连续的访问,依据当前访问用户的核心资源访问请求协议标记的前次核心资源访问请求地址进行判断,如前次核心资源访问请求地址为非网站主地址URL和非历史访问地址URL,则判定访问用户的行为为爬虫访问。
5.根据权利要求1所述的一种网站服务器爬虫识别方法,其特征在于,所述访问持续时间的爬虫访问判断方法为:
对时间连续的访问,依据访问用户的核心资源访问请求的访问持续时间,设定持续访问阈值,当访问持续时间超过持续访问阈值时判定访问用户的行为为爬虫访问。
6.根据权利要求1所述的一种网站服务器爬虫识别方法,其特征在于,所述访问频度的爬虫访问判断步骤为:
S11:设定时间周期T1,统计每时间周期T1相同类型的核心资源访问请求频度为:
F=NCR/T1
其中,NCR指的是在时间周期T1内时间连续的同类型核心资源访问请求的访问次数;
S12:对用户每种同类型核心资源访问请求的连续请求,获取其最近N次的访问频度值组[F1,F2,F3,…FN],随机抽取访问频度值中任一值作为基准值Fy;
S13:依据Fy计算频度判定值Fs=Fy±σ(σ=φFy);其中φ为误差因子;
S14:判断访问频度值中除基准值Fy外的其它N-1个访问频度值是否满足范围[Fy-σ,Fy+σ],当N-1个访问频度值全部满足范围时,通过设定频度阈值Fz,当基准值Fy大于频度阈值Fz时判定用户访问为爬虫访问。
7.根据权利要求1所述的一种网站服务器爬虫识别方法,其特征在于,对判定有爬虫访问的用户处理方法为:
依据网站预设策略,可以断开当前用户连接,并在设定的禁止访问时间段内禁止用户的IP对该网站的访问,也可以投递该访问给业务服务器,修改协议头增加爬虫标记字段,由业务服务器侧处理。
8.根据权利要求1所述的一种网站服务器爬虫识别方法,其特征在于,所述爬虫访问判定的次序为:内容连续性判定、访问频度判定、访问持续时间判定。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都优易数据有限公司,未经成都优易数据有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710191636.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:双脉冲电容储能直流精密焊机
- 下一篇:水冷电火花修复机焊枪