[发明专利]一种恶意软件检测方法、装置与电子设备有效
申请号: | 201811495637.7 | 申请日: | 2018-12-07 |
公开(公告)号: | CN109784046B | 公开(公告)日: | 2021-02-02 |
发明(设计)人: | 胡一博;朱诗兵;李长青;帅海峰;吕登龙;徐华正;张记瑞 | 申请(专利权)人: | 中国人民解放军战略支援部队航天工程大学 |
主分类号: | G06F21/56 | 分类号: | G06F21/56 |
代理公司: | 北京风雅颂专利代理有限公司 11403 | 代理人: | 王刚 |
地址: | 101416*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 恶意 软件 检测 方法 装置 电子设备 | ||
1.一种恶意软件检测方法,其特征在于,包括:
提取样本集软件的特征信息,将所述特征信息抽象化为数字形式,得到样本集特征集合与样本集特征矩阵;
利用特征选择算法过滤所述特征集合中的无效特征,得到最佳特征子集;
采用机器学习分类算法对所述最佳特征子集对应的特征矩阵进行训练,生成检测模型;
其中,所述利用特征选择算法过滤所述样本集特征集合中的无效特征,得到最佳特征子集包括:
步骤一:对所述样本集特征集合与所述样本集特征矩阵中相关参数常量以及在子集生成过程中用到的相关参数进行初始化设置,包括:
记所述样本集特征集合为Fv,所述样本集特征矩阵为Xtrain,选择的特征个数为Mv;设置信息增益的初始阈值为某一特定值θig,设置信息增益步长为λ,设置信息增益循环步数初始值n=0,设定检测率阈值为0.95;利用机器学习分类算法对所述样本集特征矩阵Xtrain进行训练,记下最大检测率为TPmax;
步骤二:根据特征频率计算公式计算样本集特征集合中每个特征的特征频率,通过计算比较滤去不相关的特征,得到去不相关特征子集;
所述特征频率计算公式:
其中,TF(fj)表示特征fj的特征频率,Nbenign表示正常软件集中正常样本数,表示特征fj出现的样本数;Nmalware表示恶意样本集中恶意样本数,为特征fj出现的样本数;
所述根据特征频率计算公式计算样本集特征集合中每个特征的特征频率,通过计算比较滤去不相关的特征,得到去不相关特征子集,包括:
步骤1:计算所述样本集特征集合中每个特征的特征频率;
步骤2:过滤掉特征频率值为0的特征,余下的特征组成中间特征子集
步骤3:通过机器学习分类算法对所述中间特征子集对应的特征矩阵进行训练,得到相应的检测率TPtf;
步骤4:滤除所述中间特征子集中特征频率最小的特征,余下特征组成特征子集通过机器学习分类算法对所述特征子集对应的特征矩阵进行训练,得到相应的检测率TPtf′;
步骤5:比较TPtf与TPtf′的值,如果TPtf=TPtf′,则将所述特征子集记为新的中间特征子集返回步骤3;如果TPtf≠TPtf′,输出所述中间特征子集
步骤6:将所述中间特征子集记为特征子集Fv1,选择的特征个数为Mv1,所述特征子集Fv1即所述去不相关特征子集;
步骤三:根据信息增益计算公式计算所述去不相关特征子集中每个特征的信息增益,通过计算比较筛选得到去噪声特征子集;
所述信息增益计算公式:
IG(fj)=H(Y)-H(Y|fj)
其中,IG(fj)表示特征fj对分类系统的信息增益,H(Y)表示分类系统的熵,H(Y|fj)表示分类系统的条件熵;
步骤四:根据χ2统计值计算公式,计算所述去噪声特征子集中每个特征与对应的特征矩阵的CHI值(χ2统计值)和特征间的CHI值,通过计算比较筛选得到去冗余特征子集;
所述χ2统计值计算公式:
CHI(fi,fj)=ξ11+ξ12+ξ21+ξ22
其中,CHI(fi,fj)表示特征fi,fj的χ2统计值,ξ11表示特征fi和特征fj同时出现的理论值与实际值的偏差,ξ12表示特征fi出现的样本中未出现特征fj的理论值与实际值的偏差,ξ21表示未出现特征fi的样本数中出现特征fj的理论值与实际值的偏差,ξ22表示未出现特征fi的样本数中也未出现特征fj的理论值与实际值的偏差;
步骤五:对所述去冗余特征子集进行分析判断,并根据判定结果进行子集优化,得到最佳特征子集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军战略支援部队航天工程大学,未经中国人民解放军战略支援部队航天工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811495637.7/1.html,转载请声明来源钻瓜专利网。