[发明专利]一种基于联邦学习的流量分类方法及系统有效
申请号: | 202011011910.1 | 申请日: | 2020-09-24 |
公开(公告)号: | CN111865815B | 公开(公告)日: | 2020-11-24 |
发明(设计)人: | 祝旭峰;束妮娜;王怀习;李旺宗;马祖发;王晨;黄郡;吴一尘 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | H04L12/801 | 分类号: | H04L12/801;H04L12/851;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 中国和平利用军工技术协会专利中心 11215 | 代理人: | 刘光德 |
地址: | 410073 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 联邦 学习 流量 分类 方法 系统 | ||
本发明提出了一种基于联邦学习的流量分类方法及系统,所述系统由流量采集标记模块、特征提取处理模块、联邦深度分类器组成,基于深度学习的方法和联邦学习的框架,在多个客户端本地搜集流量,并基于本地端口和应用的映射关系对流量进行标记,使用卷积神经网络作为分类器进行训练以获得梯度,服务器对收到的所有用户的梯度数据进行聚合,得到联合CNN模型参数,客户端根据加密梯度更新各自的模型,经过多个回合迭代,确定最终的CNN模型。本发明的技术方案标记速度快,准确率高,并且由于基于联邦学习的训练模式只在客户端本地进行训练,而不上传网络流量数据集,有效避免了对用户隐私的侵犯。
技术领域
本发明涉及互联网技术和人工智能技术领域,尤其涉及一种基于联邦学习的流量分类方法。
背景技术
随着互联网的发展,网络流量的爆炸增长与有限的网络带宽的矛盾日益突出。流量分类是高性能网络协议和应用设计的基础,是网络运营管理、网络流量调度和网络发展规划的前提,也是提升网络管理水平、改善服务质量(QoS)的基础,它可以通过对不同流量进行优先级排序帮助互联网服务提供商(ISP)向其服务用户提供不同标准的QoS服务。流量分类技术主要分为三类。第一种是基于端口号进行流量分类。然而,随着动态端口、端口混淆、NAT等技术的发展,它的准确性越发降低。第二种是基于有效负载检测(DPI)进行流量分类,通过在数据包中查找模式或关键字确定流量类型。当今互联网的加密通信量急剧攀升,而加密数据的伪随机格式几乎不包含任何识别网络流量的关键字特征,因此基于有效载荷的分类方法也面临着失效的风险。第三种方法是基于流量统计的分类方法。这些方法通过统计行为模式、会话窗口大小、时间序列等属性或使用数据包包头作为特征,并运用经典机器学习算法达到区分流量类型的功能。由于与有效载荷无关,它们能够处理加密和未加密的流量,因此基于流量统计的分类方法被认为是最合适的解决方案,但这一方法依赖于手工获得的特征,存在以下几种局限性。一是存在侵犯用户隐私的法律风险。随着如欧盟的一般数据保护条例(GDPR)等隐私保护法律的健全,传统机器学习模型构建过程中需要收集大规模流量数据,数据的获取和处理面临着侵犯用户隐私的法律风险;二是流量数据标记困难,对于网络流量的分类标记,通常采取两种方式,一种是在完全可控的电脑上运行相应应用以捕获并标记流量,另一种则是基于端口和DPI对未标记的流量进行标记,但由于如加密技术、端口混淆、NAT等技术的广泛应用,导致端口识别方法和深度包检测(dpi)等的准确率越发降低,影响了数据标记的质量;三是不断新增和演变的网络流量对流量分类器的兼容性和鲁棒性提出较高要求。可见,传统流量分类模型在每次更新都需重新进行繁琐的数据采集、处理和训练过程,程序复杂,难以实现自动化快速迭代,无法适应网络环境。
发明内容
为克服上述网络流量分类中存在的问题,本发明提出了一种基于联邦学习的流量分类方法及系统,采用的联邦分类模型在多个客户端本地搜集流量并基于本地端口映射对流量进行标记,基于联邦学习的方式在不交换数据的情况下共同训练得到流量分类器,其主要创新点有:
1. 在流量采集方面,在多个客户端本地搜集流量并基于本地端口-应用的映射关系对流量进行标记,通过联邦学习避免了侵犯用户隐私的风险,具有标记速度快,准确率高,数据规模不受限制,无需人工专家辅助标记等优点。
2. 在数据处理方面,模型采用以会话的前16个数据包的包头作为输入特征,并对源、目的MAC地址、IP地址、端口号及相关字段进行屏蔽,确保了模型的分类不会基于ip等字段。通过深度学习进行训练分类,确保了模型的可扩展性,实验证明模型在面对新型流量和流量变种时的扩展性较强。
3. 在模型训练方面,模型基于联邦学习的模式进行训练,即只在客户端本地进行训练而不上传网络流量数据集。这种方法有效的保护了用户隐私,可实现模型的快速迭代。
具体地,本发明提出了一种基于联邦学习的流量分类系统,通过传递梯度信息实现分类模型,其特征在于,由流量采集标记模块、特征提取处理模块、联邦深度分类器组成,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011011910.1/2.html,转载请声明来源钻瓜专利网。