[发明专利]一种识别网页爬虫行为的方法、装置及存储介质在审
申请号: | 201911290447.6 | 申请日: | 2019-12-16 |
公开(公告)号: | CN112989158A | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 曾庆维 | 申请(专利权)人: | 顺丰科技有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951 |
代理公司: | 深圳紫藤知识产权代理有限公司 44570 | 代理人: | 张晓薇 |
地址: | 518000 广东省深圳市南山区学府路(以南)*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 识别 网页 爬虫 行为 方法 装置 存储 介质 | ||
本申请实施例提供一种识别网页爬虫行为的方法、装置及存储介质,方法包括:获取多个维度的用户行为数据;按照预设规则将所述用户行为数据转换为预设类型的训练特征;将所述训练特征转换为样本集;将所述样本集输入识别模型,以使用所述样本集对识别模型进行训练;获取访问记录,所述访问记录为用户在历史时间内访问网页的至少一项行为数据;基于所述识别模型将所述访问记录中的各项行为数据分别与预设行为特征比较;若所述访问记录中的至少一项行为数据与至少一项预设行为特征匹配,则确定所述用户的访问行为为爬虫行为。本方案能够提高识别爬虫行为的全面性和准确性。
技术领域
本申请实施例涉及互联网技术领域,尤其涉及一种识别网页爬虫行为的方法、装置及存储介质。
背景技术
现有技术中,正常用户和爬虫访问网页,他们的特征是不一样的。如正常用户,会慢慢的看一个网页,鼠标移动滚轮,慢慢的看。而爬虫却不一样,当爬虫访问到网页之后,会立刻获得网页的所有信息,把数据传回服务器,马上进入下一个网页的爬取,周而复始,所以正常用户和爬虫访问网页的习惯特征是不一样。
在对现有技术的研究和实践过程中,本申请实施例的发明人发现,现有技术中在判断爬虫行为时准确率不高,存在将正常用户的浏览网页行为误判为爬虫行为。
发明内容
本申请实施例提供了一种识别网页爬虫行为的方法、装置及存储介质,能够提高识别爬虫行为的全面性和准确性。
第一方面中,本申请实施例提供一种识别网页爬虫行为的方法,所述方法包括:
获取多个维度的用户行为数据;
按照预设规则将所述用户行为数据转换为预设类型的训练特征;
将所述训练特征转换为样本集;
将所述样本集输入识别模型,以使用所述样本集对识别模型进行训练;
获取访问记录,所述访问记录为用户在历史时间内访问网页的至少一项行为数据;
基于所述识别模型将所述访问记录中的各项行为数据分别与预设行为特征比较;
若所述访问记录中的至少一项行为数据与至少一项预设行为特征匹配,则确定所述用户的访问行为为爬虫行为。
一种可能的设计中,所述用户行为数据包括以下项中的至少一项行为数据:
网页驻留时长、页面滚轮的滚轮次数、页面滚轮的滚动时间间隔、页面的点击事件次数、相邻点击事件的时间间隔、页面是否存在外部链接、下一个页面是否为当前页面的跳转页面、或者页面视频是否被点击播放。
一种可能的设计中,所述按照预设规则将所述用户行为数据转换为预设类型的训练特征,包括:
确定所述用户行为数据中各项行为数据的行为类型;
获取与行为类型匹配的判断条件;
按照行为类型,分别采用匹配的判断条件对于行为类型匹配的行为数据进行判断,得到各项行为数据的判断结果;
根据各项行为数据的判断结果分别对各项行为数据进行向量化处理,得到特征向量;
将所述特征向量作为所述训练特征。
一种可能的设计中,所述将所述训练特征转换为样本集,包括:
按照所述预设规则,分别将各维度的用户行为数据设置标签;
将训练特征与标签对应关联;
根据关联的训练特征与标签,生成所述样本集。
一种可能的设计中,所述根据各项行为数据的判断结果分别对各项行为数据进行向量化处理,得到特征向量,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于顺丰科技有限公司,未经顺丰科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911290447.6/2.html,转载请声明来源钻瓜专利网。