[发明专利]一种应用服务器的爬虫检测方法和识别网络模型在审

申请号：	202110003244.5	申请日：	2021-01-04
公开（公告）号：	CN112699290A	公开（公告）日：	2021-04-23
发明（设计）人：	王勇科;杨亮;刘国宏	申请（专利权）人：	成都瑞小博科技有限公司
主分类号：	G06F16/951	分类号：	G06F16/951;G06N3/04;G06N3/08
代理公司：	成都佳划信知识产权代理有限公司 51266	代理人：	幸伟山
地址：	610000 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种应用服务器爬虫检测方法识别网络模型
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种应用服务器的爬虫检测方法，包括：根据相同的用户字段IpId和用户字段UserAgent进行分组，对任一分组对应的日志按时间先后顺序排列，以时间间隔T₁进行划分，并生成对应的会话控制id；对任一会话控制id对应的日志按时间T₂进行重采样，得到时序特征；采用滑动获取时序特征，并组成训练集和测试集的样本数据；对训练集的所述样本数据进行Z‑Score标准化处理，得到n个二维特征数据；根据用户字段UserAgent对二维特征数据进行标签；构建LSTM的识别网络模型，将带标签的二维特征数据输入至LSTM的识别网络模型，并结合二分类交叉熵损失函数进行训练，得到训练后的网络模型；将测试集的样本数据输入至网络模型，以检测出爬虫和非爬虫。

技术领域

本发明涉及网络技术领域，尤其是一种应用服务器的爬虫检测方法和识别网络模型。

背景技术

目前，现有技术中大部分的互联网应用采用前后端分离的方式提供用户服务，其中，前端系统展示用户界面，后端系统通过API的提供提供数据服务。对于公开应用，由于API暴露在互联网上，爬虫非常容易伪装成前端客户端，利用这些API绕开前端用户界面获取业务数据。因此，需要对现有技术中的爬虫进行检测，但是，现有技术中的爬虫识别方法通常有以下方式：

(1)后端服务器判别客户端User-Agent，Cookie，Session等特定特征来分类；该方式的缺点是这些特征非常容易伪造。

(2)后端服务检查访问来源的API使用频率；这种方式也可以简单的使用分布式代理服务绕开。

(3)使用复杂的前端代码和算法计算前端指纹，然后将指纹用指定算法加密，用于和后端服务通讯，后端解密指纹数据，用来确保API调用是由指定前端发出的；这种方式由于指纹采集算法和加密算法部署在前端，因此，也可以被逆向和模拟，另外这种方式需要前后端同时部署，增加了开发和部署难度。

因此，急需要提出一种逻辑简单、检测可靠的应用服务器的爬虫检测方法。

发明内容

针对上述问题，本发明的目的在于提供一种应用服务器的爬虫检测方法和识别网络模型，本发明采用的技术方案如下：

一种应用服务器的爬虫检测方法，包括以下步骤：

根据相同的用户字段IpId和用户字段UserAgent进行分组，对任一分组对应的日志按时间先后顺序排列，以时间间隔T₁进行划分，并生成对应的会话控制id；

对任一会话控制id对应的日志按时间T₂进行重采样，得到时序特征；

采用滑动获取时序特征，并组成训练集和测试集的样本数据；

对训练集的所述样本数据进行Z-Score标准化处理，得到n个二维特征数据；根据用户字段UserAgent对二维特征数据进行标签；

构建LSTM的识别网络模型，将带标签的二维特征数据输入至LSTM的识别网络模型，并结合二分类交叉熵损失函数进行训练，得到训练后的网络模型；