[发明专利]一种基于数据精简的高效异常流量检测方法和系统在审
申请号: | 202210149568.4 | 申请日: | 2022-02-18 |
公开(公告)号: | CN114580506A | 公开(公告)日: | 2022-06-03 |
发明(设计)人: | 叶翰嘉;詹德川;周志华;陆苏 | 申请(专利权)人: | 南京大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 南京乐羽知行专利代理事务所(普通合伙) 32326 | 代理人: | 李玉平 |
地址: | 210023 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据 精简 高效 异常 流量 检测 方法 系统 | ||
本发明公开一种基于数据精简的高效异常流量检测方法和系统,获取基站数据库中的真实数据;随机初始化模拟数据;随机初始化一个异常流量检测模型;分别使用真实数据和模拟数据训练模型,记录模型在两组数据上的损失函数和对应的参数梯度;计算两组梯度之间的欧式距离;最小化上述欧式距离以更新模拟数据;重复上述过程,直到模拟数据收敛,记录模拟数据,并清空基站数据库中的真实数据。用户选定一种异常流量检测模型,初始化该模型;获取之前保存的模拟数据;使用模拟数据训练该模型。本发明基于梯度匹配来获取少量的模拟数据,大大减缓了基站数据库的存储压力,并保证模型的性能不变差。
技术领域
本发明涉及一种基于数据精简的高效异常流量检测方法和系统,主要是利用优化技术来获取一批模拟数据,缓解基站上数据存储的压力。
背景技术
随着通讯技术的发展和各种终端应用的出现,网络攻击造成的潜在危害也越来越明显。异常流量检测是一种基于流量数据来自动发现异常通讯请求的技术。然而,传统的异常流量检测方法已经不能满足当今通讯安全的需求,基于机器学习算法的异常检测技术已经逐渐成为主流。机器学习技术可以从历史数据中学得一个模型,使用该模型可以预测新数据是否是异常流量。然而,机器学习模型的训练往往依赖于大量数据,但是基站上的存储容量往往有限,不能存储大量的历史通讯数据。如果将数据存储在远程数据服务器中,又会带来额外的通讯成本。因此,如何精简基站上存储的数据是十分重要的。
数据精简的目的是减小存储代价和模型训练的计算代价。在机器学习领域中,有许多数据精简的方法,比如特征选择、特征提取、关键样本选择等。特征选择是指从样本的所有特征中选出一部分最能影响模型性能的特征,并忽略其他特征。这样就可以在训练模型时只使用低维样本,从而更快地收敛。特征提取的目的和特征选择相似,但特征提取基于样本的原始特征构造一组新的特征,这组特征并非是从原始特征中选出的。关键样本选择则不改变样本的维度,从整个数据集中挑选最重要的样本,从而减小样本量。但是,目前的数据精简方法很难和模型的训练过程结合,不能保证使用精简后的数据训练得到的模型仍然能够保持很好的性能。
发明内容
发明目的:针对现有技术中存在的问题与不足,本发明提供一种基于数据精简的高效异常流量检测方法和系统,将数据精简的过程和异常流量检测模型的构建过程结合起来,在降低数据存储需求的同时维持模型的性能。本发明的关键是利用优化技术来获取一批模拟数据。这批模拟数据的规模远远小于真实数据,但使用这批模拟数据来训练异常流量检测模型时,模型参数的更新方向与使用真实数据训练时的更新方向几乎一致,从而使得训练出的模型具有与使用真实数据训练出的模型相似的性能。借助这项技术,可以大大缓解基站上数据存储的压力。
技术方案:一种基于数据精简的高效异常流量检测方法,它包含两大流程,即数据精简过程和精简化异常流量检测模型训练过程。
数据精简过程中,获取基站数据库中的真实数据;随机初始化模拟数据;随机初始化一个异常流量检测模型;分别使用真实数据和模拟数据训练模型,记录模型在两组数据上的损失函数和对应的参数梯度;计算两组梯度之间的欧式距离;最小化上述欧式距离以更新模拟数据;重复上述过程,直到模拟数据收敛,记录模拟数据,并清空基站数据库中的真实数据。精简化异常流量检测模型训练过程中,用户选定一种异常流量检测模型,初始化该模型;获取之前保存的模拟数据;使用模拟数据训练该模型。本发明基于梯度匹配来获取少量的模拟数据,大大减缓了基站数据库的存储压力,并保证模型的性能不变差。
数据精简过程具体为:
步骤100,获取基站数据库中现有的真实数据集,将其记作T;
步骤101,随机初始化模拟数据集S;
步骤102,由用户指定最大迭代次数K;
步骤103,随机初始化一个异常流量检测模型M,模型的具体类型和结构可以由用户指定;用户指定一种损失函数,一般为交叉熵损失;
步骤104,从真实数据集T中随机采样一小批样本B_T,从模拟数据集S中随机采样一小批样本B_S;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210149568.4/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置