[发明专利]一种识别网页爬虫行为的方法、装置及存储介质在审
申请号: | 201911290447.6 | 申请日: | 2019-12-16 |
公开(公告)号: | CN112989158A | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 曾庆维 | 申请(专利权)人: | 顺丰科技有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951 |
代理公司: | 深圳紫藤知识产权代理有限公司 44570 | 代理人: | 张晓薇 |
地址: | 518000 广东省深圳市南山区学府路(以南)*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 识别 网页 爬虫 行为 方法 装置 存储 介质 | ||
1.一种识别网页爬虫行为的方法,其特征在于,所述方法包括:
获取多个维度的用户行为数据;
按照预设规则将所述用户行为数据转换为预设类型的训练特征;
将所述训练特征转换为样本集;
将所述样本集输入识别模型,以使用所述样本集对识别模型进行训练;
获取访问记录,所述访问记录为用户在历史时间内访问网页的至少一项行为数据;
基于所述识别模型将所述访问记录中的各项行为数据分别与预设行为特征比较;
若所述访问记录中的至少一项行为数据与至少一项预设行为特征匹配,则确定所述用户的访问行为为爬虫行为。
2.根据权利要求1所述的方法,其特征在于,所述用户行为数据包括以下项中的至少一项行为数据:
网页驻留时长、页面滚轮的滚轮次数、页面滚轮的滚动时间间隔、页面的点击事件次数、相邻点击事件的时间间隔、页面是否存在外部链接、下一个页面是否为当前页面的跳转页面、或者页面视频是否被点击播放。
3.根据权利要求2所述的方法,其特征在于,所述按照预设规则将所述用户行为数据转换为预设类型的训练特征,包括:
确定所述用户行为数据中各项行为数据的行为类型;
获取与行为类型匹配的判断条件;
按照行为类型,分别采用匹配的判断条件对于行为类型匹配的行为数据进行判断,得到各项行为数据的判断结果;
根据各项行为数据的判断结果分别对各项行为数据进行向量化处理,得到特征向量;
将所述特征向量作为所述训练特征。
4.根据权利要求3所述的方法,其特征在于,所述将所述训练特征转换为样本集,包括:
按照所述预设规则,分别将各维度的用户行为数据设置标签;
将训练特征与标签对应关联;
根据关联的训练特征与标签,生成所述样本集。
5.根据权利要求3或4所述的方法,其特征在于,所述根据各项行为数据的判断结果分别对各项行为数据进行向量化处理,得到特征向量,包括:
若判断结果为肯定,则对肯定的判断结果对应的行为数据设置第一标志;
若判断结果为否定,则对否定的判断结果对应的行为数据设置第二标志;
将各项行为数据对应的标志形成所述特征向量。
6.根据权利要求5所述的方法,其特征在于,所述确定所述用户的访问行为为爬虫行为之后,所述方法还包括:
生成验证码,所述验证码用于验证所述用户的网页访问行为;
向所述用户所在的终端发送所述验证码。
7.根据权利要求5所述的方法,其特征在于,所述确定所述用户的访问行为为爬虫行为之后,所述方法还包括:
获取所述用户所在的终端的网络地址;
将所述网络地址封禁。
8.一种用于识别网页爬虫行为的装置,其特征在于,所述装置包括:
收发模块,用于获取多个维度的用户行为数据;
处理模块,用于按照预设规则将所述收发模块获取的所述用户行为数据转换为预设类型的训练特征;将所述训练特征转换为样本集;将所述样本集输入识别模型,以使用所述样本集对识别模型进行训练;
所述收发模块还用于获取访问记录,所述访问记录为用户在历史时间内访问网页的至少一项行为数据;
所述处理模块还用于基于所述识别模型将所述访问记录中的各项行为数据分别与预设行为特征比较;若所述访问记录中的至少一项行为数据与至少一项预设行为特征匹配,则确定所述用户的访问行为为爬虫行为。
9.一种计算机设备,其特征在于,所述计算机设备包括:
至少一个处理器、存储器和收发器;
其中,所述存储器用于存储计算机程序,所述处理器用于调用所述存储器中存储的计算机程序来执行如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,其包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-7中任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于顺丰科技有限公司,未经顺丰科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911290447.6/1.html,转载请声明来源钻瓜专利网。