[发明专利]基于特征自适应层次聚类的网络流量图像安全分类方法有效
申请号: | 202110015140.6 | 申请日: | 2021-01-06 |
公开(公告)号: | CN112688961B | 公开(公告)日: | 2021-09-21 |
发明(设计)人: | 陈红松;孙学洁 | 申请(专利权)人: | 北京科技大学 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;H04L12/24;G06N3/08;G06N3/04;G06K9/62 |
代理公司: | 北京市广友专利事务所有限责任公司 11237 | 代理人: | 张仲波;邓琳 |
地址: | 100083*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 特征 自适应 层次 网络流量 图像 安全 分类 方法 | ||
本发明公开了一种基于特征自适应层次聚类的网络流量图像安全分类方法,利用自适应层次聚类方法对网络流量特征进行聚类,所生成的聚类的网络流量图像在不损失网络流量特征信息的前提下,加强了网络流量特征之间的关联性,增加了网络流量相关特征的强度,从而提高了网络流量安全分类的准确性。所述方法对网络流量特征进行自底而上的凝聚法聚类,具有一定的自适应性,并提出最优聚类数选取的方法,增强了流量特征图像聚类效果,对种类复杂多样的网络流量安全分类问题普遍适用。
技术领域
本发明涉及网络流量安全技术领域,特别涉及一种基于特征自适应层次聚类的网络流量图像安全分类方法。
背景技术
网络流量安全分类作为网络安全管理和网络安全分析的基础,是网络安全领域的研究重点。随着人工智能的发展,机器学习技术在网络流量安全分类应用中愈加广泛,然而机器学习分类模型的识别性能往往过于依赖特征选择,在某种程度上,特征选择的优劣直接决定了网络流量分类模型性能的上限。
现有技术通过改进网络流量特征选择方法或优化机器学习算法来提高网络流量安全分类的效果,然而利用特征选择方法求得对机器学习模型分类特征组合,会不同程度地损失网络流量的原始特征信息,甚至陷入局部最优,使得整体分类结果不稳定、不准确,并且由于机器学习算法自身的局限性,实现多种类复杂网络流量安全分类仍然存在一定的难度。
现有的技术方案主要有以下几种:
(1)中国科学技术大学的Wei Wang认为数据流前面字段部分是包含连接数据和内容数据,可以很好地反映数据流的固有特征,因此通过截取原始网络流量数据中每条数据流的前784B(长度不够,用0x00填充),然后转换为28×28的图像对网络流量特征信息进行选择,最后使用了类似于LeNet-5的CNN体系结构,对网络流量进行分类。
(2)中国科学院信息工程研究所的吴迪同方案1一样,只是截取原始网络流量数据中每条数据流的前1024B,然后转换为32×32的图像对网络流量特征信息进行统计。
(3)国家计算机网络与信息安全管理中心的刘纪伟提出一种基于统计排序的特征选择方法(Feature Selectionbased on Statistic and Ranking,FSSR),该方法根据特征的重要性权重值进行特征选择。首先根据特征选择系数大小选取相关性强、类别区分度高的特征组成初始特征子集,然后根据特征影响系数大小按序对初始特征子集进行二次选择,再次进行降维寻优操作,从而获得最优特征子集,有效提升分类的效率和效果。
(4)FahadA提出一种全局优化方法(Global OptimizationAlgorithm,GOA),首先结合了多种的特征选择技术,产生跨不同流量数据集的初始特征子集,然后基于信息熵来提取稳定和准确特征,并使用一种基于随机森林的过滤方法,获得最优特征子集。
(5)康奈尔大学的Ongun T设定一个长度为T的时间间隔,在这个时间间隔上,对通过所有连接节点的网络数据流的特征进行聚合,定义为节点间通信时间T内流量特征分布的平均值、标准差、中位数、最小值和最大值等,最终采用随机森林和梯度增强方法对网络流量进行安全分类。
(6)国家数字交换系统工程技术研究中心的许倩提出一种基于层次聚类的流量异常分类(Traffic Anomaly Classification Based on Hierarchical Clustering,TAC—HC)算法,通过训练已标记的异常流量构建分类树,利用特征属性的学习过程建立网络流量分类模型。
上述方案中,方案(1)和方案(2)分别截取了原始网络流量数据中每条数据流的前784B和前1024B并转成图像,作为网络流量特征的信息提取,并用CNN和LSTM网络学习特征,进而分类网络流量。这种方法网络流量特征只进行规定字节数量的截断处理,单纯地统计了网络流量样本特征,以上方法会造成信息量大的网络数据流量损失特征信息,信息量小的网络数据流量信息冗余,进而造成网络流量数据的不稳定性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京科技大学,未经北京科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110015140.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:双质量飞轮
- 下一篇:基于大数据的电商产品模拟系统