[发明专利]一种爬虫识别方法有效

专利信息
申请号: 201710563685.4 申请日: 2017-07-12
公开(公告)号: CN107196968B 公开(公告)日: 2020-10-20
发明(设计)人: 邹延迪;李尚锦 申请(专利权)人: 深圳市活力天汇科技股份有限公司
主分类号: H04L29/06 分类号: H04L29/06
代理公司: 北京中北知识产权代理有限公司 11253 代理人: 卢业强
地址: 518057 广东省深圳市南山*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开一种爬虫识别方法。所述方法包括由服务端执行的如下步骤:接收移动设备发送的访问信号,每接收一条访问信号保存一条访问日志,所述访问日志包括以下信息:设备ID,访问时间,发送访问信号时的位置,访问页面,查询参数;根据访问日志计算同一移动设备的参数A~G;对A~G进行加权求和得到H,当A或B或H超过设定的阈值时判为爬虫。本发明实现了根据同一设备ID的移动设备的多个参数进行爬虫识别。由于同一爬虫无法伪造注册多个设备ID,因此服务端能利用设备ID准确地识别哪些访问信号来自同一用户或爬虫,提高了爬虫识别的准确率。
搜索关键词: 一种 爬虫 识别 方法
【主权项】:
一种爬虫识别方法,其特征在于,包括由服务端执行的如下步骤:接收移动设备发送的访问信号,每接收一条访问信号保存一条访问日志,所述访问日志包括以下信息:设备ID,访问时间,发送访问信号时的位置,访问页面,查询参数;根据访问日志计算同一移动设备的以下参数:A为访问频率,即单位时间内的访问次数;B为并发访问量,即同时访问服务端的移动设备的数量;C为当前时刻前一段时间内访问列表页的次数与访问次数的比值;D为业务低峰时段每小时的访问次数与业务高峰时段访问次数的比值;E为当前时刻前一段时间内访问次数与订单数量的比值,所述订单为购买服务端提供的商品或服务创建的订单;F为当前时刻前一段时间T内移动设备的位置没有发生变化的时间T1和移动设备处于位置黑名单中的时间T2的和(T1+T2)与T的比值;G为当前时刻前一段时间内访问的查询参数与所有可选查询参数的比值;对A、B、C、D、E、F、G进行加权求和得到H,如果A>A0,或B>B0,或H>H0,则判为爬虫;其中,A0、B0、H0为设定的三个爬虫判断阈值,H的表达式为:H=a*A+b*B+c*C+d*D+e*E+f*F+g*G式中,a、b、c、d、e、f、g分别为A、B、C、D、E、F、G的权值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市活力天汇科技股份有限公司,未经深圳市活力天汇科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710563685.4/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top