[发明专利]一种恶意代码混淆特征清洗方法在审
申请号: | 201810013584.4 | 申请日: | 2018-01-08 |
公开(公告)号: | CN108287996A | 公开(公告)日: | 2018-07-17 |
发明(设计)人: | 王栎汉;宁振虎;薛菲;蔡永泉;梁鹏 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F21/56 | 分类号: | G06F21/56;G06K9/62 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种恶意代码混淆特征清洗方法,属于机器学习信息安全领域。本方法包括特征选择方法和混淆特征清洗方法,提高传统恶意代码特征提取方法的有效性。相较于传统恶意代码特征提取方法,本发明能够有效延长恶意代码特征提取算法的有效时限,并提高特征提取算法的抗干扰性。本发明首先通过n‑gram特征提取方法构建特征库。由于该特征提取算法无法解决恶意代码的混淆操作,造成特征库中含有大量恶意代码的混淆特征值。通过混淆特征清洗算法,可以消除异常数据对模型识别规则的干扰。在此基础上从训练数据集规模的角度上,提出一种特征选择方法。该方法在保证模型识别精度不下降的基础上,有效降低模型最终使用的特征数目。 | ||
搜索关键词: | 混淆 恶意代码 恶意代码特征 清洗 特征提取算法 模型识别 特征选择 特征库 信息安全领域 训练数据集 机器学习 特征提取 提取算法 异常数据 有效时限 构建 算法 保证 | ||
【主权项】:
1.一种恶意代码混淆特征清洗方法,本方法包括特征选择方法和混淆特征清洗方法,提高传统恶意代码特征提取方法的有效性;首先通过n‑gram特征提取方法构建特征库;由于该特征提取算法无法解决恶意代码的混淆操作,造成特征库中含有大量恶意代码的混淆特征值;通过混淆特征清洗算法,消除异常数据对模型识别规则的干扰;在此基础上从训练数据集规模的角度上,提出一种特征选择方法;该方法在保证模型识别精度不下降的基础上,有效降低模型最终使用的特征数目;其特征在于:本方法的实施流程如下,1)基于多样本分析,构建混淆特征清洗方法;该方法通过对少量样本数据的详细分析,发现样本中混淆特征的特点并构建线性回归算法模型;2)基于该混淆特征清洗方法动态计算其余各样本中混淆特征值的阈值,并基于该值对样本库中其余样本的特征向量进行混淆清除;3)根据样本输入训练集构建特征选择方法;该方法首先对得到的特征向量进行归一化处理,并依据输入训练样本数目,动态清除在数据集中贡献较小的特征值;具体实现步骤如下:1)考虑到恶意代码样本情况复杂,各个恶意代码样本所采用的混淆方法是动态变化的,并且不同样本所提取的特征值分布也是不同的;因此对于每个样本而言,需要动态求解样本混淆值的大小;各恶意代码样本中混淆特征值的阈值ξ,简称混淆阈值,ξ是样本中混淆特征值中最小值,该最小值在不同样本中是动态变化的;为了更好的衡量和表征该值的大小;定义了如下两个指标,分别为特征预期值Featureaverages和特征标准值Featuremedian;这两个指标是通过对单个样本的动态求解而得到的,用于描述该样本中的特征分布情况;该函数反应了阈值与预期值和标准值之间的关系:ξ=α*Featureaverages+β*Featuremedian,α和β分别为特征预期值和特征标准值的权重;2)特征预期值Featureaverages代表了样本最原始情况下特征值理想的取值情况;通过计算该样本中各特征值的总和并求平均,得到一个在当前样本分布情况下的特征值的理想取值;考虑到n‑gram算法在对大部分恶意代码样本进行特征提取时,会造成样本中含有大量只出现过单次的无效特征;因此在计算特征预期值Featuremedian时通过对样本中各特征值进行去重后,再进行求平均操作;这样的处理会消除大量噪音数据对均值的影响;m是去重后所剩特征个数,featurei代表第i个特征的特征值大小;特征预期值的计算:
3)特征标准值Featuremedian用于降低较大的混淆特征值对最终结果的干扰,特征标准值是通过计算样本中所有特征值的中位数而得到,较好的反应样本在未受干扰时,特征值的理想取值;由于在一份恶意代码样本中,整体的特征值分布情况趋于高斯分布,其中的混淆特征在其特征分布中只占非常少的比例;虽然混淆特征值对特征标准值也会造成影响;但是由于混淆特征值在特征分布中所占比例较低,因此通过求解分布中的中位数取值,得到一个非常接近去除混淆后理想特征值取值的范围;m是去重后所剩特征个数,featurei代表第i个特征的特征值大小;mid函数是求解序列的中位数;特征标准值计算函数:Featuremedian=mid(feature1,feature2,...,featurem)。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810013584.4/,转载请声明来源钻瓜专利网。