[发明专利]一种爬虫识别方法有效
申请号: | 201710563685.4 | 申请日: | 2017-07-12 |
公开(公告)号: | CN107196968B | 公开(公告)日: | 2020-10-20 |
发明(设计)人: | 邹延迪;李尚锦 | 申请(专利权)人: | 深圳市活力天汇科技股份有限公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06 |
代理公司: | 北京中北知识产权代理有限公司 11253 | 代理人: | 卢业强 |
地址: | 518057 广东省深圳市南山*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种爬虫识别方法。所述方法包括由服务端执行的如下步骤:接收移动设备发送的访问信号,每接收一条访问信号保存一条访问日志,所述访问日志包括以下信息:设备ID,访问时间,发送访问信号时的位置,访问页面,查询参数;根据访问日志计算同一移动设备的参数A~G;对A~G进行加权求和得到H,当A或B或H超过设定的阈值时判为爬虫。本发明实现了根据同一设备ID的移动设备的多个参数进行爬虫识别。由于同一爬虫无法伪造注册多个设备ID,因此服务端能利用设备ID准确地识别哪些访问信号来自同一用户或爬虫,提高了爬虫识别的准确率。 | ||
搜索关键词: | 一种 爬虫 识别 方法 | ||
【主权项】:
一种爬虫识别方法,其特征在于,包括由服务端执行的如下步骤:接收移动设备发送的访问信号,每接收一条访问信号保存一条访问日志,所述访问日志包括以下信息:设备ID,访问时间,发送访问信号时的位置,访问页面,查询参数;根据访问日志计算同一移动设备的以下参数:A为访问频率,即单位时间内的访问次数;B为并发访问量,即同时访问服务端的移动设备的数量;C为当前时刻前一段时间内访问列表页的次数与访问次数的比值;D为业务低峰时段每小时的访问次数与业务高峰时段访问次数的比值;E为当前时刻前一段时间内访问次数与订单数量的比值,所述订单为购买服务端提供的商品或服务创建的订单;F为当前时刻前一段时间T内移动设备的位置没有发生变化的时间T1和移动设备处于位置黑名单中的时间T2的和(T1+T2)与T的比值;G为当前时刻前一段时间内访问的查询参数与所有可选查询参数的比值;对A、B、C、D、E、F、G进行加权求和得到H,如果A>A0,或B>B0,或H>H0,则判为爬虫;其中,A0、B0、H0为设定的三个爬虫判断阈值,H的表达式为:H=a*A+b*B+c*C+d*D+e*E+f*F+g*G式中,a、b、c、d、e、f、g分别为A、B、C、D、E、F、G的权值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市活力天汇科技股份有限公司,未经深圳市活力天汇科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710563685.4/,转载请声明来源钻瓜专利网。
- 上一篇:一种输电线路攀登杆塔用防坠扣结构
- 下一篇:一种电力铁塔攀爬保护装置