[发明专利]Web页面爬虫识别方法和装置有效
申请号: | 201710451203.6 | 申请日: | 2017-06-15 |
公开(公告)号: | CN109150790B | 公开(公告)日: | 2021-05-25 |
发明(设计)人: | 李吉文 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 张一军;姜劲 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | web 页面 爬虫 识别 方法 装置 | ||
1.一种Web页面爬虫识别方法,其特征在于,所述方法包括:
在接收到网页访问请求时,将浏览器可执行脚本插入对应所述网页访问请求的返回页面;所述浏览器可执行脚本包括:指定请求的地址、接收到网页访问请求的时间、请求校验值;
在所述浏览器可执行脚本被执行后,对所述请求校验值进行合法性检查、并计算接收到所述指定请求的时间与接收到网页访问请求的时间的差值;在所述请求校验值检查合法、且所述差值小于预设阈值的情况下,生成脚本执行记录;
根据预设时间段内的网页访问记录和脚本执行记录对待识别的请求来源IP进行爬虫识别。
2.根据权利要求1所述的方法,其特征在于,根据预设时间段内的网页访问记录和脚本执行记录对待识别的请求来源IP进行爬虫识别,包括:
统计预设时间段内每个待识别的请求来源IP对应的网页访问记录条数N1、脚本执行记录条数N2;
在所述待识别的请求来源IP满足:且或者满足:且N2=0的情况下,将所述待识别的请求来源IP识别为爬虫的IP;
其中,n为待识别的请求来源IP的个数,N1(i)为第i个待识别的请求来源IP对应的网页访问记录条数,C为大于1的预设常数。
3.根据权利要求1所述的方法,其特征在于,所述网页访问记录包括:请求来源IP、接收网页访问请求的时间、用户代理信息;所述脚本执行记录包括:请求来源IP、接收指定请求的时间;
所述根据预设时间段内的网页访问记录和脚本执行记录对待识别的请求来源IP进行爬虫识别,还包括:根据用户代理信息排除正规搜索引擎的请求来源IP,以构建待识别的请求来源IP的集合。
4.根据权利要求1所述的方法,其特征在于,所述指定请求为:接口请求或图片请求。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
定时对所述浏览器可执行脚本进行更新。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:在将浏览器可执行脚本插入对应所述网页访问请求的返回页面的步骤之前,先随机生成浏览器可执行脚本。
7.一种Web页面爬虫识别装置,其特征在于,所述装置包括:
脚本添加模块,用于在接收到网页访问请求时,将浏览器可执行脚本插入对应所述网页访问请求的返回页面;所述浏览器可执行脚本包括:指定请求的地址、接收到网页访问请求的时间、请求校验值;
检查模块,用于在所述浏览器可执行脚本被执行之后,对所述请求校验值进行合法性检查,计算接收到所述指定请求的时间与接收到网页访问请求的时间的差值、并将所述差值与预设阈值进行比较;
记录生成模块,用于在所述请求校验值检查合法、且所述差值小于预设阈值的情况下,生成脚本执行记录;
爬虫识别模块,用于根据预设时间段内的网页访问记录和脚本执行记录对待识别的请求来源IP进行爬虫识别。
8.根据权利要求7所述的装置,其特征在于,所述爬虫识别模块根据预设时间段内的网页访问记录和脚本执行记录对待识别的请求来源IP进行爬虫识别,包括:
统计预设时间段内每个待识别的请求来源IP对应的网页访问记录条数N1、脚本执行记录条数N2;
在所述待识别的请求来源IP满足:且或者满足:且N2=0的情况下,将所述待识别的请求来源IP识别为爬虫的IP;
其中,n为待识别的请求来源IP的个数,N1(i)为第i个待识别的请求来源IP对应的网页访问记录条数,C为大于1的预设常数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710451203.6/1.html,转载请声明来源钻瓜专利网。