[发明专利]基于改进的字典学习的入侵检测方法在审

申请号：	201710137000.X	申请日：	2017-03-09
公开（公告）号：	CN106991435A	公开（公告）日：	2017-07-28
发明（设计）人：	张迎周;尹秀;陈星昊;王星;赵莲	申请（专利权）人：	南京邮电大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06F21/55
代理公司：	南京知识律师事务所32207	代理人：	张芳
地址：	210003 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于改进字典学习入侵检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于入侵检测技术领域，具体涉及到一种基于改进的字典学习的入侵检测方法。

背景技术

随着网络和智能手机的普及，网络安全问题日益突出，如何保证网络系统的安全成为了一个亟待解决的问题。入侵检测技术通过收集操作系统、系统程序、应用程序、以及网络流量包等信息，发现被监控系统或网络中违背安全策略，或危及系统安全的行为，是保障系统和网络安全的有效手段。近年来，信号的“稀疏表达”应用广泛，利用机器学习的方法为普通稠密样本寻求一个冗余字典下的稀疏表示，可以提取出原始数据的具有高判别能力的稀疏特征，从而达到约简冗余信息，降低原始问题复杂度的目的。入侵检测中通常面临安全数据的高维度问题，其本质是一个分类问题，如何采用高效的特征选择方法来降低特征维度，提高入侵检测的检测率、降低入侵检测的误报率，是亟待解决的问题。

入侵检测中通常面临安全数据的高维度问题,大数据集的求解可以运用机器学习里的方法来有效地解决，可以将机器学习的部分典型方法和算法应用于入侵检测中，去探索其中的相关数据处理方法在入侵检测中应用的有效性和可行性。机器学习方法用计算机模拟人类的学习活动，研究如何通过计算机学习现有的知识，发现新的知识，并通过不断完善，提升学习的效果。机器学习中包含大量的数据预处理和分类方法，与统计学、人工智能、信息论等学科有关联。其基本过程是通过从已有的经验中学习并构建学习机，进一步对未知的数据进行分类或预测。如何高效的维护网络和系统的安全，具有重要的实际意义。

现有的网络安全研究已经不仅限于互联网的研究，而是扩展到其他的网络环境下。另外还有IDS在智能电网、信息物理融合系统、认知无线电网络等方面的应用研究。目前常用的入侵检测方法包括基于马尔科夫过程的异常检测,基于神经网络的异常检测，基于支持向量机的异常检测近,基于数据挖掘的入侵检测,基于遗传算法的入侵检测，基于免疫学的入侵检测等。基于超完备字典的信号稀疏分解是一种新的信号表示理论，采用冗余原子构造字典，而不是采用传统的正交基。这样使字典更富有表现力，同时为信号自适应的稀疏扩展提供空间。通过这种超完备字典把数据变换到另一空间，即进行稀疏编码，将原始信息的稀疏表示作为特征作为机器学习分类器的输入，会带来更好的分类效果。

发明内容

本发明提出一种基于改进的字典学习的入侵检测方法，目的在于通过使用经ADMM优化的字典学习得到原始高维数据的具有高判别能力的稀疏表示，约简冗余信息，降低原始问题的复杂度，提高求解的精度，减少计算时间和存储开销，最终达到提高入侵检测检测率和降低误报率的目的。

本发明是一种基于改进的字典学习的入侵检测方法，包括数据预处理步骤、稀疏特征提取步骤、数据检测步骤；首先收取标准数据集作为本方法训练集和测试集，然后用字典学习的方法对高维数据约简冗余信息以达到稀疏特征选择的目的；字典学习是一个双目标优化的复杂问题，使用分布式快速求解算法--交替方向乘子法(ADMM)作为其求解框架，可以在加快大字典的训练速度的同时保证求解的精度；将提取出的具有高判别能力的稀疏特征作为机器学习分类器的输入，分类器使用支持向量机(SVM)，从而得到一个具有低复杂度、高表示能力的入侵检测模型，最终实现降低入侵检测的误报率、提高检测率、减少计算时间和存储开销。

具体步骤如下：

步骤1：数据预处理，具体做法是：获取数据包；进行数据清理；对清理后的数据进行格式化，将非数值型数据转化为数值型数据；将取值范围不同的特征标准化，得到标准数据集；

步骤2、稀疏特征提取，具体做法是：为入侵检测的正常行为和异常行为各自训练出一个超完备冗余字典；得到最优化的稀疏表示字典；提取最佳稀疏特征；

步骤3、数据检测，选择支持向量机作SVM为分类模型，将低维的所述稀疏特征作为支持向量机SVM分类器的输入，训练出一个基于字典学习的SVM入侵检测分类器，应用到所述分类模型中，完成高维数据集的入侵检测，将正常数据根据字典进行重构，异常数据停止操作并等待后续处理。

步骤1中数据清理包括填充缺失值、光滑噪声、识别离群点、数据一致化。

步骤2中所述得到最优化的稀疏表示字典的过程是：

步骤2-1、将特征的稀疏性作为约束条件以此最小化字典的重构误差；

步骤2-2、用交替方向乘子法ADMM作为基于改进的字典学习的入侵检测模型的求解框架；

步骤2-3、将步骤2-2求解得到的数据作为入侵检测数据的稀疏特征集，即最优化的稀疏表示字典。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京邮电大学，未经南京邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】