[发明专利]一种基于关联规则分类的网络入侵检测方法有效
申请号: | 201510753693.6 | 申请日: | 2015-11-05 |
公开(公告)号: | CN105306475B | 公开(公告)日: | 2018-06-29 |
发明(设计)人: | 王劲松;莫敬涛;黄玮;杨传印 | 申请(专利权)人: | 天津理工大学 |
主分类号: | H04L29/06 | 分类号: | H04L29/06 |
代理公司: | 天津佳盟知识产权代理有限公司 12002 | 代理人: | 侯力 |
地址: | 300384 天津市西青*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 关联规则 分类 网络连接数据 关联规则提取 网络入侵检测 网络连接 预处理 入侵检测系统 准确度 标准数据 测试网络 分类结果 攻击类型 检测结果 连接数据 统计数据 网络数据 数据集 误报率 算法 展示 攻击 改进 | ||
1.一种基于关联规则分类的网络入侵检测方法包括以下步骤:
第1步、对国际标准数据集10%KDDCup99预处理,并将预处理后的数据集分成训练集和测试集两部分数据;
第2步、采用改进的Apriori算法对选取的训练集中的网络连接数据进行训练,提取到关联规则,将关联规则存放到关联规则库中,同时将关联规则库中的关联规则展示出来;所述改进的Apriori算法称为基于索引的Apriori算法,用Apriori-index表示;
第3步、测试集中的每条网络连接数据逐条匹配关联规则库中关联规则,根据不同关联规则的条件长度和网络连接类型分别计算权值,找出最大权值所对应的网络连接类型即为最终分类得到的结果;
第4步、保存第3步中分类结果,将上述分类过程和分类得到的结果展示出来;同时为保证该方法良好的自学习特性,测试集的数据在根据关联规则分类得到具体的网络连接类型后,训练集数据连同对应的网络连接类型重新加入到训练集数据中,为后续关联规则提取提供新的训练集数据源,保证关联规则的动态更新。
2.根据权利要求1所述的基于关联规则分类的网络入侵检测方法,其特征在于:第1步中数据集预处理的方法是:
第1.1步、为每列数据添加位置参数;因为10%KDDCup99数据集中有大量相同的数据,数据集中处于不同列的数据有不同的含义,而原始的Apriori算法在处理数据集中不同列的相同数据项时将他们视为同样的数据,因此直接使用原始的Apriori算法处理数据集会影响提取规则速度和分类结果的准确度;为避免出现以上问题,需要在数据预处理阶段为每条网络连接数据的每个数据项添加位置参数;
第1.2步、采用交叉验证的方法选取经过第1.1步预处理后的10%KDDCup99数据集中60%的连接数据作为训练集,剩余的40%的连接数据作为测试集;由于改进的Apriori算法能够处理字符类型数据,同时数值类型的数据也能够视为字符类型数据,所以无需对网络连接数据中的字符类型数据进行数值化和归一化处理。
3.根据权利要求1所述的基于关联规则分类的网络入侵检测方法,其特征在于:第2步所述采用Apriori-index算法提取关联规则的方法是:
第2.1步、初始化最小支持度阈值Min_Support,最小置信度阈值Min_Confidence;通过查阅文献资料和实验验证,最小支持度阈值和最小置信度阈值分别设定为25%和78.5%能够获得较高的分类准确度;初始化最小支持度阈值Min_Support=25%,最小置信度阈值Min_Confidence=78.5%;
第2.2步、找出所有的频繁项集;遍历训练集中的所有的网络连接数据,统计每个属性值对应的连接类型及其出现的频度,形成候选项集合C1;在此基础上,根据支持度公式
计算支持度;其中Occur(X)表示训练集中所有网络连接数据中包含频繁项{X}的数量,Count(D)表示训练集{D}中所有网络连接的数量;在候选项集合C1中删除支持度低于最小支持度阈值Min_Support的候选项,剩余的候选项形成频繁1-项集L1;然后对于每种网络连接类型,连接L1中的不同元素构成候选项集合C2,再次遍历训练集数据,根据支持度公式计算C2中的每个候选项的支持度,删除候选项集合C2中支持度低于最小支持度阈值Min_Support的候选项,剩余候选项形成频繁2-项集L2;按照网络连接类型,再连接L2中的不同元素构成候选项集合C3,再次遍历训练集数据,计算C3中的每个候选项的支持度,删除支持度低于最小支持度阈值Min_Support的候选项,剩余的候选项形成频繁3-项集L3;重复进行以上的遍历、删除和连接的步骤,直到没有新的候选项产生,所有的频繁项集,即L1,L2,...,Ln都已搜寻得到;其中,连接步骤和删除步骤分别严格满足连接定理和频繁子集定理,即:若两个k-1-项集的前k-2个项相同,而最后一个项不同,则证明它们可连接得到k-项集;若k-项集任意一个子集不是频繁项集,则该k-项集也不是频繁项集;
第2.3步、由频繁项集产生关联规则;对于第2.2步中得到的频繁项集L1,L2,...,Ln,假设频繁项集Li中每个频繁项li的网络连接类型用tj表示;如果(li-tj)→tj的置信度大于最小置信度阈值Min_Confidence,则输出(li-tj)→tj;置信度的计算根据置信度计算公式:
其中Support(A∪B)和Support(A)分别表示频繁项{A∪B}和{A}的支持度;即置信度公式可化为:
找到的所有满足要求的(li-tj)→tj,即为关联规则;
第2.4步、将第2.3步中得到的关联规则添加到关联规则库中,作为对测试集中未知类型的网络连接数据测试分类的判断依据;
第2.5步、将关联规则库中的关联规则展示出来;10%KDDCup99数据集的数据量较大,经过Apriori-index算法训练得到的关联规则非常多,关联规则在页面内显示会比较混乱,所以关联规则展示页面进行适当的缩放,使关联规则清晰展示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津理工大学,未经天津理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510753693.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:电子设备强绑定配对方案
- 下一篇:用于检测服务器的漏洞的系统和方法