[发明专利]一种基于深度学习的垂直类恶意爬虫流量识别方法在审
申请号: | 202010189748.6 | 申请日: | 2020-03-18 |
公开(公告)号: | CN111404942A | 公开(公告)日: | 2020-07-10 |
发明(设计)人: | 刘兰;刘浪洲;王鹏铖 | 申请(专利权)人: | 广东技术师范大学 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;H04L29/08;G06N3/04;G06N3/08;G06K9/62 |
代理公司: | 广州市深研专利事务所(普通合伙) 44229 | 代理人: | 陈雅平 |
地址: | 510000 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 垂直 恶意 爬虫 流量 识别 方法 | ||
1.一种基于深度学习的垂直类恶意爬虫流量识别方法,其特征是该方法包括以下步骤:
(1)将样本数据分为训练集和测试集,对训练数据集进行归一化预处理;
(2)将预处理后的训练数据输入神经网络模型进行训练;
(3)将测试集进行归一化和补0处理,处理后输入到步骤(2)的训练完成后的模型中,识别出流量的类别。
2.根据权利要求1所述的基于深度学习的垂直类恶意爬虫流量识别方法,其特征是进一步的,所描述的步骤(1)具体包括如下:
a.构建实验环境,部署相应的实验机器,用于获取原始流量数据,对目标网站进行为期一周的流量采集;
b.将网站访问流量按照一定的时间间隔进行提取保存,再在每阶段时间中的原始数据包中保留相同的长度,若长度不足则补0处理,将每条数据包的序列最为一个维度,编码转换成二维数据,组合时序维度并进行归一化,即预处理后的数据相当于视频处理中的多帧灰度图,构成三维卷积网络的输入。
3.根据权利要求1所述的基于深度学习的垂直类恶意爬虫流量识别方法,其特征是进一步的,所描述的步骤(2)具体包括如下:
所采用的神经网络模型为三维卷积神经网络模型,将预处理后的数据输入模型中训练,并且通过网络反馈的结果不断优化参数,利用梯度下降法,逐步优化出最终的流量分类识别模型。
4.根据权利要求1所述的基于深度学习的垂直类恶意爬虫流量识别方法,其特征是总体流程主要为以下四步:
Step1:构建训练数据集;
Step2:使用三维卷积神经网络训练模型;
Step3:调整出最优的识别模型;
Step4:测试数据,完成流量识别;
Step1的具体实施如下:
(1)在实验网络内设立目标机器,在其设备上部署具有一定信息量的无任何防御措施的目标网站;
(2)为提高样本采集速度,将目标网站作完全静态化处理,为了保证足量的样本数据与采集效率,将爬虫程序部署在高性能采集节点与一般性能节点中;
(3)高性能采集节点对爬虫采集速度设定每秒x次,共采集24*7小时,每一小时封存一次数据,一般性能节点有人工产生访问数据并保存数据;
(4)数据预处理,由于对网站的访问是以Get方式发出,从实际应用来看,大部分以Get连接形式发出的数据量在1024字节以下,因此我们截取原始网络访问流的前1024字节,若不足则进行补零,因为一个字节由8位二进制比特实现,换算得出一条流量长度为8192比特(l=1024×8);
(5)二维转换,将每字节的数据分别进行m比特的one-hot编码,则每个数据包转换成l*m的二维数据,依次连接,二维输出编码为
(6)时序组合,将k小时内的n个数据包,按照顺序组合为l×m×n的三维数据,此步骤类似于多帧图像组合为视频文件,输出数据可作为三维卷积神经网络的输入;
Step2的具体实施如下:
(1)神经网络模型采用三维卷积神经网络模型,通过卷积核提取体征,卷积的结果作为激励函数的输入,激励函数的输出即为盖层的输出,卷积层的计算如下,x为卷积层输入,Xij代表输入数据中与卷积核进行运算的各部分,w为卷积核,相当于各位置输入数据对应的权值,b为偏置量,zij代表输出数据中第i行第j列的值,即zij=w×Xij+b,调整的参数主要为w和b值;
(2)激励函数,本发明要解决的问题是多分类识别问题,且对实时性有要求,因此选择Relu函数作为第一选择;
(3)为了大幅提高神经网络模型的训练时间,本发明对训练过程采用了精简策略,主要是权值共享、稀疏连接、随机丢弃以及最大池化;
(4)输出层通过回归算法对全连接层输出进行判别处理,输出是否为恶意爬虫流量的结果,由上可以看出,本发明要解决的问题属于二分类问题,故采用sigmoid函数作为输出层的激励函数;
Step3的具体实施如下:
神经网络反馈调优,根据模型训练情况对模型参数进行优化,为评估网络对样本的判别是否正确,需要用到损失函数L,调整的方法采用小批梯度下降法,在设定好每个小批次训练的样本数量后,每完成一个小批次的训练后计算损失函数,更新有关参数,直至最优;
Step4的具体实施如下:
将测试数据输入神经网络模型进行测试,测试过程很中,该测试数据不采取随机丢弃,而是计算所有数据以实现最大化的识别分类效果,测试模块只进行正向判断,保存训练模块的效果,测试数据中每组数据使用次数均为减一,以减少测试过程的耗时。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东技术师范大学,未经广东技术师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010189748.6/1.html,转载请声明来源钻瓜专利网。