[发明专利]一种识别网页爬虫行为的方法、装置及存储介质在审

申请号：	201911290447.6	申请日：	2019-12-16
公开（公告）号：	CN112989158A	公开（公告）日：	2021-06-18
发明（设计）人：	曾庆维	申请（专利权）人：	顺丰科技有限公司
主分类号：	G06F16/951	分类号：	G06F16/951
代理公司：	深圳紫藤知识产权代理有限公司 44570	代理人：	张晓薇
地址：	518000 广东省深圳市南山区学府路（以南）***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种识别网页爬虫行为方法装置存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例提供一种识别网页爬虫行为的方法、装置及存储介质，方法包括：获取多个维度的用户行为数据；按照预设规则将所述用户行为数据转换为预设类型的训练特征；将所述训练特征转换为样本集；将所述样本集输入识别模型，以使用所述样本集对识别模型进行训练；获取访问记录，所述访问记录为用户在历史时间内访问网页的至少一项行为数据；基于所述识别模型将所述访问记录中的各项行为数据分别与预设行为特征比较；若所述访问记录中的至少一项行为数据与至少一项预设行为特征匹配，则确定所述用户的访问行为为爬虫行为。本方案能够提高识别爬虫行为的全面性和准确性。

技术领域

本申请实施例涉及互联网技术领域，尤其涉及一种识别网页爬虫行为的方法、装置及存储介质。

背景技术

现有技术中，正常用户和爬虫访问网页，他们的特征是不一样的。如正常用户，会慢慢的看一个网页，鼠标移动滚轮，慢慢的看。而爬虫却不一样，当爬虫访问到网页之后，会立刻获得网页的所有信息，把数据传回服务器，马上进入下一个网页的爬取，周而复始，所以正常用户和爬虫访问网页的习惯特征是不一样。

在对现有技术的研究和实践过程中，本申请实施例的发明人发现，现有技术中在判断爬虫行为时准确率不高，存在将正常用户的浏览网页行为误判为爬虫行为。

发明内容

本申请实施例提供了一种识别网页爬虫行为的方法、装置及存储介质，能够提高识别爬虫行为的全面性和准确性。

第一方面中，本申请实施例提供一种识别网页爬虫行为的方法，所述方法包括：

获取多个维度的用户行为数据；

按照预设规则将所述用户行为数据转换为预设类型的训练特征；

将所述训练特征转换为样本集；

将所述样本集输入识别模型，以使用所述样本集对识别模型进行训练；