[发明专利]一种基于深度学习的垂直类恶意爬虫流量识别方法在审

专利信息
申请号: 202010189748.6 申请日: 2020-03-18
公开(公告)号: CN111404942A 公开(公告)日: 2020-07-10
发明(设计)人: 刘兰;刘浪洲;王鹏铖 申请(专利权)人: 广东技术师范大学
主分类号: H04L29/06 分类号: H04L29/06;H04L29/08;G06N3/04;G06N3/08;G06K9/62
代理公司: 广州市深研专利事务所(普通合伙) 44229 代理人: 陈雅平
地址: 510000 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深度 学习 垂直 恶意 爬虫 流量 识别 方法
【权利要求书】:

1.一种基于深度学习的垂直类恶意爬虫流量识别方法,其特征是该方法包括以下步骤:

(1)将样本数据分为训练集和测试集,对训练数据集进行归一化预处理;

(2)将预处理后的训练数据输入神经网络模型进行训练;

(3)将测试集进行归一化和补0处理,处理后输入到步骤(2)的训练完成后的模型中,识别出流量的类别。

2.根据权利要求1所述的基于深度学习的垂直类恶意爬虫流量识别方法,其特征是进一步的,所描述的步骤(1)具体包括如下:

a.构建实验环境,部署相应的实验机器,用于获取原始流量数据,对目标网站进行为期一周的流量采集;

b.将网站访问流量按照一定的时间间隔进行提取保存,再在每阶段时间中的原始数据包中保留相同的长度,若长度不足则补0处理,将每条数据包的序列最为一个维度,编码转换成二维数据,组合时序维度并进行归一化,即预处理后的数据相当于视频处理中的多帧灰度图,构成三维卷积网络的输入。

3.根据权利要求1所述的基于深度学习的垂直类恶意爬虫流量识别方法,其特征是进一步的,所描述的步骤(2)具体包括如下:

所采用的神经网络模型为三维卷积神经网络模型,将预处理后的数据输入模型中训练,并且通过网络反馈的结果不断优化参数,利用梯度下降法,逐步优化出最终的流量分类识别模型。

4.根据权利要求1所述的基于深度学习的垂直类恶意爬虫流量识别方法,其特征是总体流程主要为以下四步:

Step1:构建训练数据集;

Step2:使用三维卷积神经网络训练模型;

Step3:调整出最优的识别模型;

Step4:测试数据,完成流量识别;

Step1的具体实施如下:

(1)在实验网络内设立目标机器,在其设备上部署具有一定信息量的无任何防御措施的目标网站;

(2)为提高样本采集速度,将目标网站作完全静态化处理,为了保证足量的样本数据与采集效率,将爬虫程序部署在高性能采集节点与一般性能节点中;

(3)高性能采集节点对爬虫采集速度设定每秒x次,共采集24*7小时,每一小时封存一次数据,一般性能节点有人工产生访问数据并保存数据;

(4)数据预处理,由于对网站的访问是以Get方式发出,从实际应用来看,大部分以Get连接形式发出的数据量在1024字节以下,因此我们截取原始网络访问流的前1024字节,若不足则进行补零,因为一个字节由8位二进制比特实现,换算得出一条流量长度为8192比特(l=1024×8);

(5)二维转换,将每字节的数据分别进行m比特的one-hot编码,则每个数据包转换成l*m的二维数据,依次连接,二维输出编码为

(6)时序组合,将k小时内的n个数据包,按照顺序组合为l×m×n的三维数据,此步骤类似于多帧图像组合为视频文件,输出数据可作为三维卷积神经网络的输入;

Step2的具体实施如下:

(1)神经网络模型采用三维卷积神经网络模型,通过卷积核提取体征,卷积的结果作为激励函数的输入,激励函数的输出即为盖层的输出,卷积层的计算如下,x为卷积层输入,Xij代表输入数据中与卷积核进行运算的各部分,w为卷积核,相当于各位置输入数据对应的权值,b为偏置量,zij代表输出数据中第i行第j列的值,即zij=w×Xij+b,调整的参数主要为w和b值;

(2)激励函数,本发明要解决的问题是多分类识别问题,且对实时性有要求,因此选择Relu函数作为第一选择;

(3)为了大幅提高神经网络模型的训练时间,本发明对训练过程采用了精简策略,主要是权值共享、稀疏连接、随机丢弃以及最大池化;

(4)输出层通过回归算法对全连接层输出进行判别处理,输出是否为恶意爬虫流量的结果,由上可以看出,本发明要解决的问题属于二分类问题,故采用sigmoid函数作为输出层的激励函数;

Step3的具体实施如下:

神经网络反馈调优,根据模型训练情况对模型参数进行优化,为评估网络对样本的判别是否正确,需要用到损失函数L,调整的方法采用小批梯度下降法,在设定好每个小批次训练的样本数量后,每完成一个小批次的训练后计算损失函数,更新有关参数,直至最优;

Step4的具体实施如下:

将测试数据输入神经网络模型进行测试,测试过程很中,该测试数据不采取随机丢弃,而是计算所有数据以实现最大化的识别分类效果,测试模块只进行正向判断,保存训练模块的效果,测试数据中每组数据使用次数均为减一,以减少测试过程的耗时。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东技术师范大学,未经广东技术师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010189748.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top