[发明专利]一种基于深度学习的垂直类恶意爬虫流量识别方法在审

申请号：	202010189748.6	申请日：	2020-03-18
公开（公告）号：	CN111404942A	公开（公告）日：	2020-07-10
发明（设计）人：	刘兰;刘浪洲;王鹏铖	申请（专利权）人：	广东技术师范大学
主分类号：	H04L29/06	分类号：	H04L29/06;H04L29/08;G06N3/04;G06N3/08;G06K9/62
代理公司：	广州市深研专利事务所(普通合伙) 44229	代理人：	陈雅平
地址：	510000 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度学习垂直恶意爬虫流量识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度学习的垂直类恶意爬虫流量识别方法，其特征是该方法包括以下步骤:

(1)将样本数据分为训练集和测试集，对训练数据集进行归一化预处理；

(2)将预处理后的训练数据输入神经网络模型进行训练；

(3)将测试集进行归一化和补0处理，处理后输入到步骤(2)的训练完成后的模型中，识别出流量的类别。

2.根据权利要求1所述的基于深度学习的垂直类恶意爬虫流量识别方法，其特征是进一步的，所描述的步骤(1)具体包括如下：

a.构建实验环境，部署相应的实验机器，用于获取原始流量数据，对目标网站进行为期一周的流量采集；

b.将网站访问流量按照一定的时间间隔进行提取保存，再在每阶段时间中的原始数据包中保留相同的长度，若长度不足则补0处理，将每条数据包的序列最为一个维度，编码转换成二维数据，组合时序维度并进行归一化，即预处理后的数据相当于视频处理中的多帧灰度图，构成三维卷积网络的输入。

3.根据权利要求1所述的基于深度学习的垂直类恶意爬虫流量识别方法，其特征是进一步的，所描述的步骤(2)具体包括如下：

所采用的神经网络模型为三维卷积神经网络模型，将预处理后的数据输入模型中训练，并且通过网络反馈的结果不断优化参数，利用梯度下降法，逐步优化出最终的流量分类识别模型。

4.根据权利要求1所述的基于深度学习的垂直类恶意爬虫流量识别方法，其特征是总体流程主要为以下四步：

Step1：构建训练数据集；

Step2：使用三维卷积神经网络训练模型；

Step3：调整出最优的识别模型；

Step4:测试数据，完成流量识别；

Step1的具体实施如下：

(1)在实验网络内设立目标机器，在其设备上部署具有一定信息量的无任何防御措施的目标网站；

(2)为提高样本采集速度，将目标网站作完全静态化处理，为了保证足量的样本数据与采集效率，将爬虫程序部署在高性能采集节点与一般性能节点中；

(3)高性能采集节点对爬虫采集速度设定每秒x次，共采集24*7小时，每一小时封存一次数据，一般性能节点有人工产生访问数据并保存数据；

(4)数据预处理，由于对网站的访问是以Get方式发出，从实际应用来看，大部分以Get连接形式发出的数据量在1024字节以下，因此我们截取原始网络访问流的前1024字节，若不足则进行补零，因为一个字节由8位二进制比特实现，换算得出一条流量长度为8192比特(l＝1024×8)；

(5)二维转换，将每字节的数据分别进行m比特的one-hot编码，则每个数据包转换成l*m的二维数据，依次连接，二维输出编码为

(6)时序组合，将k小时内的n个数据包,按照顺序组合为l×m×n的三维数据，此步骤类似于多帧图像组合为视频文件，输出数据可作为三维卷积神经网络的输入；

Step2的具体实施如下：

(1)神经网络模型采用三维卷积神经网络模型，通过卷积核提取体征，卷积的结果作为激励函数的输入，激励函数的输出即为盖层的输出，卷积层的计算如下，x为卷积层输入，X_ij代表输入数据中与卷积核进行运算的各部分，w为卷积核，相当于各位置输入数据对应的权值，b为偏置量，z_ij代表输出数据中第i行第j列的值，即z_ij＝w×X_ij+b，调整的参数主要为w和b值；

(2)激励函数，本发明要解决的问题是多分类识别问题，且对实时性有要求，因此选择Relu函数作为第一选择；

(3)为了大幅提高神经网络模型的训练时间，本发明对训练过程采用了精简策略，主要是权值共享、稀疏连接、随机丢弃以及最大池化；

(4)输出层通过回归算法对全连接层输出进行判别处理，输出是否为恶意爬虫流量的结果，由上可以看出，本发明要解决的问题属于二分类问题，故采用sigmoid函数作为输出层的激励函数；

Step3的具体实施如下：

神经网络反馈调优，根据模型训练情况对模型参数进行优化，为评估网络对样本的判别是否正确，需要用到损失函数L，调整的方法采用小批梯度下降法，在设定好每个小批次训练的样本数量后，每完成一个小批次的训练后计算损失函数，更新有关参数，直至最优；

Step4的具体实施如下：

将测试数据输入神经网络模型进行测试，测试过程很中，该测试数据不采取随机丢弃，而是计算所有数据以实现最大化的识别分类效果，测试模块只进行正向判断，保存训练模块的效果，测试数据中每组数据使用次数均为减一，以减少测试过程的耗时。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广东技术师范大学，未经广东技术师范大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010189748.6/1.html，转载请声明来源钻瓜专利网。

上一篇：带可实现不同声音手感组装结构的微动开关及鼠标
下一篇：防辐射组合物以及高放射性核废料金属容器

同类专利

专利分类

H 电学

H04 电通信技术
H04L 数字信息的传输，例如电报通信
H04L29-00 H04L 1/00至H04L 27/00单个组中不包含的装置、设备、电路和系统
H04L29-02 .通信控制；通信处理
H04L29-12 .以数据终端为特征的
H04L29-14 .故障的应对措施
H04L29-04 ..用于多条通信线路的
H04L29-06 ..以协议为特征的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度学习的垂直类恶意爬虫流量识别方法在审

专利文献下载