首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]一种网站服务器爬虫识别方法和装置在审

申请号：	201710191636.2	申请日：	2017-03-28
公开（公告）号：	CN107092660A	公开（公告）日：	2017-08-25
发明（设计）人：	夏珺峥;乔宏利	申请（专利权）人：	成都优易数据有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	成都弘毅天承知识产权代理有限公司51230	代理人：	杨保刚
地址：	611730 四川省成都市郫县德源镇（菁***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种网站服务器爬虫识别方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种网站服务器爬虫识别方法，其特征在于，包括以下步骤：

S1：依据用户IP地址对访问用户进行标记；

S2：对用户访问请求进行划分，将用户访问请求中请求资源、请求域名、子域名、访问路径相同的用户访问请求归为相同类型的访问请求；

S3：依据每类访问请求的资源类型划分出核心资源访问请求；

S4：对访问用户的核心资源访问请求进行连续性判断，对非连续性访问判断为非爬虫访问，对连续性访问继续进行下一步；

S5：依据访问用户的核心资源访问请求的内容连续性、访问持续时间、访问频度进行爬虫访问判断；

S6：将判断为爬虫访问的用户进行处理。

2.根据权利要求1所述的一种网站服务器爬虫识别方法，其特征在于，所述核心资源访问请求划分方法为：请求资源类型为展示数据内容的协议请求为核心资源访问请求。

3.根据权利要求1所述的一种网站服务器爬虫识别方法，其特征在于，所述连续访问判断为：

设定连续访问阈值，当访问用户的相邻两次核心资源访问请求的时间小于连续访问阈值时判定用户为连续性访问。

4.根据权利要求1所述的一种网站服务器爬虫识别方法，其特征在于，所述内容连续性的爬虫访问判断方法为：

对时间连续的访问，依据当前访问用户的核心资源访问请求协议标记的前次核心资源访问请求地址进行判断，如前次核心资源访问请求地址为非网站主地址URL和非历史访问地址URL，则判定访问用户的行为为爬虫访问。

5.根据权利要求1所述的一种网站服务器爬虫识别方法，其特征在于，所述访问持续时间的爬虫访问判断方法为：

对时间连续的访问，依据访问用户的核心资源访问请求的访问持续时间，设定持续访问阈值，当访问持续时间超过持续访问阈值时判定访问用户的行为为爬虫访问。

6.根据权利要求1所述的一种网站服务器爬虫识别方法，其特征在于，所述访问频度的爬虫访问判断步骤为：

S11：设定时间周期T1，统计每时间周期T1相同类型的核心资源访问请求频度为：

F＝N_CR/T1

其中，N_CR指的是在时间周期T1内时间连续的同类型核心资源访问请求的访问次数；

S12：对用户每种同类型核心资源访问请求的连续请求，获取其最近N次的访问频度值组[F₁,F₂,F₃,…F_N]，随机抽取访问频度值中任一值作为基准值F_y；

S13：依据F_y计算频度判定值F_s＝F_y±σ(σ＝φF_y)；其中φ为误差因子；

S14：判断访问频度值中除基准值F_y外的其它N-1个访问频度值是否满足范围[F_y-σ,F_y+σ]，当N-1个访问频度值全部满足范围时，通过设定频度阈值F_z，当基准值F_y大于频度阈值F_z时判定用户访问为爬虫访问。

7.根据权利要求1所述的一种网站服务器爬虫识别方法，其特征在于，对判定有爬虫访问的用户处理方法为：

依据网站预设策略，可以断开当前用户连接，并在设定的禁止访问时间段内禁止用户的IP对该网站的访问，也可以投递该访问给业务服务器，修改协议头增加爬虫标记字段，由业务服务器侧处理。

8.根据权利要求1所述的一种网站服务器爬虫识别方法，其特征在于，所述爬虫访问判定的次序为：内容连续性判定、访问频度判定、访问持续时间判定。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于成都优易数据有限公司，未经成都优易数据有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710191636.2/1.html，转载请声明来源钻瓜专利网。

上一篇：双脉冲电容储能直流精密焊机
下一篇：水冷电火花修复机焊枪

同类专利

专利分类

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top