[发明专利]一种基于半监督学习的入侵检测方法有效
申请号: | 201710547427.7 | 申请日: | 2017-07-06 |
公开(公告)号: | CN107392015B | 公开(公告)日: | 2019-09-17 |
发明(设计)人: | 朱培栋;张潇峰;冯璐;张毅;刘欣;刘光灿;熊荫乔;栾悉道;陈威兵 | 申请(专利权)人: | 长沙学院 |
主分类号: | G06F21/55 | 分类号: | G06F21/55;G06K9/62 |
代理公司: | 湖南兆弘专利事务所(普通合伙) 43008 | 代理人: | 谭武艺 |
地址: | 410003 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于半监督学习的入侵检测方法,实施步骤包括:选取初始包含带标签样本和待测试的未标记样本的混合样本集,计算特征空间中各个特征值的信息增益并完成基于信息熵的特征选择,然后基于信息熵的特征选择对带标签样本进行筛选,将筛选得到的新的训练数据用于基于LapSVM的分类器半监督训练,将完成训练的分类器对待测试的未标记样本进行分类,根据检测指标确定最佳的检测指标的评估值,并将最佳的检测指标的评估值对应的分类结果输出。本发明采用了特征选择的方法处理网络环境数据中容易出现的冗余现象,利用少量带标签样本与大量未标记的数据来创建半监督学习模型,在降低误报率、提高检测率的同时,能够减少数据冗余,提高检测效率。 | ||
搜索关键词: | 一种 基于 监督 学习 入侵 检测 方法 | ||
【主权项】:
1.一种基于半监督学习的入侵检测方法,其特征在于实施步骤包括:1)选取初始包含带标签样本和待测试的未标记样本的混合样本集;2)针对混合样本集进行数据预处理,得到离散化的训练数据样本;3)基于离散化的训练数据样本计算特征空间中各个特征值的信息增益,计算各个特征值的信息增益的函数表达式如式(1)所示;式(1)中,IG(t)为特征值t的信息增益,m为特征总数,P(ci)为第i个特征值ci的出现频率,t和分别为特征值t的存在和不存在,P(t)为特征值t存在的概率,P(ci|t)为出现特征t时第i个特征值ci出现的概率,为特征值t不存在的概率,为不出现特征t时第i个特征值ci出现的概率;4)对各个特征值的信息增益进行排序,根据预设的阈值将信息增益小于预设的阈值的特征将从特征空间中去除以完成信息熵的特征选择;5)基于信息熵的特征选择对带标签样本进行筛选,将筛选得到的新的训练数据用于基于LapSVM的分类器半监督训练;6)将完成半监督训练的分类器对待测试的未标记样本进行分类;7)计算入侵检测的检测指标的评估值,包括检测率、召回率、错误率和假阳性率,其中检测率的计算函数表达式如式(4)所示,召回率的计算函数表达式如式(5)所示,错误率的计算函数表达式如式(6)所示,假阳性率的计算函数表达式如式(7)所示;式(4)中,Precision为检测率,TP为正确检测到异常连接的次数,FP为正常连接被错误地检测为异常的次数;式(5)中,Recall为召回率,TP为正确检测到异常连接的次数,FN为异常连接被错误地检测为正常连接的次数;式(6)中,Error_Rate为错误率,FP为正常连接被错误地检测为异常的次数,FN为异常连接被错误地检测为正常连接的次数,TP为正确检测到异常连接的次数,TN为正常连接被正确检测的次数;式(7)中,FPR为假阳性率,FP为正常连接被错误地检测为异常的次数,TN为正常连接被正确检测的次数;8)判断检测指标的评估值是否达到设定阈值,如果未达到设定阈值,则重新设定用于完成信息熵的特征选择的预设的阈值,跳转执行步骤4);否则,跳转执行步骤9);9)判断对对待测试的未标记样本进行分类的分类次数是否超出预设阈值,如果尚未预设阈值,则重新设定用于完成信息熵的特征选择的预设的阈值,跳转执行步骤4);否则,针对所有对待测试的未标记样本进行分类的检测指标确定最佳的检测指标的评估值,将最佳的检测指标的评估值对应的对带初始标签的训练数据样本进行分类的分类结果输出。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长沙学院,未经长沙学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710547427.7/,转载请声明来源钻瓜专利网。