[发明专利]一种检测爬虫请求的方法和装置在审
申请号: | 201911281120.2 | 申请日: | 2019-12-13 |
公开(公告)号: | CN112989157A | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 洪镇宇;黄梅芬;王鑫渊 | 申请(专利权)人: | 网宿科技股份有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951 |
代理公司: | 北京华智则铭知识产权代理有限公司 11573 | 代理人: | 陈刚 |
地址: | 200030 上海市徐汇*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 检测 爬虫 请求 方法 装置 | ||
1.一种检测爬虫请求的方法,其特征在于,所述方法包括:
获取目标历史时段中目标网站的历史访问信息,将包含相同的主维度标识的历史访问信息划分至同一信息组;
基于目标信息组下的历史访问信息,创建所述目标信息组下副维度标识对应的多个单维度会话序列,和所述主维度标识对应的跨纬度会话序列;
根据所述跨纬度会话序列对应的流量特征,和所述多个单维度会话序列对应的流量特征,生成所述目标信息组对应的特征向量;
基于目标网站下所有信息组对应的特征向量,训练所述目标网站对应的爬虫检测模型,通过所述爬虫检测模型对所述目标网站进行爬虫检测。
2.根据权利要求1所述的方法,其特征在于,所述主维度标识为源IP地址、用户ID或设备指纹;所述副维度标识为源IP地址、用户ID、设备指纹或浏览器标识。
3.根据权利要求1所述的方法,其特征在于,所述创建所述目标信息组下副维度标识对应的多个单维度会话序列,包括:
对于所述目标信息组下的目标副维度标识,获取每个目标副维度标识信息对应的会话所包含的网页访问信息;
按照访问时间对所述网页访问信息进行排列,生成每个所述目标副维度标识信息对应的单维度会话序列。
4.根据权利要求1所述的方法,其特征在于,所述创建所述主维度标识对应的跨纬度会话序列,包括:
按照访问时间对所述目标信息组所有会话包含的全部网页访问信息进行排列,生成所述主维度标识对应的跨纬度会话序列。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述目标网站的网站地图,基于所述网站地图建立所述目标网站的属性分数库,其中,所述属性分数库记录有目标网站的不同网站属性的分数值,所述网站属性至少包括网页URL、网页referer和支持的所有浏览器标识;
根据所述属性分数库分别对每个所述单维度会话序列和所述跨纬度会话序列进行打分,将所述打分结果设为目标信息组的特征向量。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于所述单维度会话序列和所述跨纬度会话序列中的人机交互信息,生成所述目标信息组对应的特征向量。
7.根据权利要求1所述的方法,其特征在于,所述通过所述爬虫检测模型对所述目标网站进行爬虫检测,包括:
周期性统计当前周期内出现的所述目标网站对应的主维度标识信息;
针对每个主维度标识信息,基于预设时长内的包含所述主维度标识信息的全部历史访问信息,创建所述主维度标识信息对应的多个单维度会话序列和跨纬度会话序列;
根据所述主维度标识信息对应的多个单维度会话序列和跨纬度会话序列的流量特征,生成所述主维度标识信息对应的特征向量;
将所述主维度标识信息对应的特征向量输入所述爬虫检测模型,根据模型输出内容判断所述主维度标识信息是否属于爬虫请求。
8.根据权利要求1所述的方法,其特征在于,所述通过所述爬虫检测模型对所述目标网站进行爬虫检测,包括:
当接收到目标网站的访问请求时,获取所述访问请求的主维度标识信息;
基于预设时长内的包含所述主维度标识信息的全部历史访问信息,创建所述主维度标识信息对应的多个单维度会话序列和跨纬度会话序列;
根据所述主维度标识信息对应的多个单维度会话序列和跨纬度会话序列的流量特征,生成所述主维度标识信息对应的特征向量;
将所述主维度标识信息对应的特征向量输入所述爬虫检测模型,根据模型输出内容判断所述访问请求是否属于爬虫请求。
9.根据权利要求7或8所述的方法,其特征在于,所述方法还包括:
若接收到的目标访问请求与已检测出的爬虫请求间所有维度标识信息的相似度大于预设阈值,则将所述目标访问请求标记为爬虫请求。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网宿科技股份有限公司,未经网宿科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911281120.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种麦拉机构
- 下一篇:日志处理方法、装置及容器组