[发明专利]一种恶意代码混淆特征清洗方法在审

专利信息
申请号: 201810013584.4 申请日: 2018-01-08
公开(公告)号: CN108287996A 公开(公告)日: 2018-07-17
发明(设计)人: 王栎汉;宁振虎;薛菲;蔡永泉;梁鹏 申请(专利权)人: 北京工业大学
主分类号: G06F21/56 分类号: G06F21/56;G06K9/62
代理公司: 北京思海天达知识产权代理有限公司 11203 代理人: 沈波
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 混淆 恶意代码 恶意代码特征 清洗 特征提取算法 模型识别 特征选择 特征库 信息安全领域 训练数据集 机器学习 特征提取 提取算法 异常数据 有效时限 构建 算法 保证
【权利要求书】:

1.一种恶意代码混淆特征清洗方法,本方法包括特征选择方法和混淆特征清洗方法,提高传统恶意代码特征提取方法的有效性;

首先通过n-gram特征提取方法构建特征库;由于该特征提取算法无法解决恶意代码的混淆操作,造成特征库中含有大量恶意代码的混淆特征值;通过混淆特征清洗算法,消除异常数据对模型识别规则的干扰;在此基础上从训练数据集规模的角度上,提出一种特征选择方法;该方法在保证模型识别精度不下降的基础上,有效降低模型最终使用的特征数目;

其特征在于:本方法的实施流程如下,

1)基于多样本分析,构建混淆特征清洗方法;该方法通过对少量样本数据的详细分析,发现样本中混淆特征的特点并构建线性回归算法模型;

2)基于该混淆特征清洗方法动态计算其余各样本中混淆特征值的阈值,并基于该值对样本库中其余样本的特征向量进行混淆清除;

3)根据样本输入训练集构建特征选择方法;该方法首先对得到的特征向量进行归一化处理,并依据输入训练样本数目,动态清除在数据集中贡献较小的特征值;

具体实现步骤如下:

1)考虑到恶意代码样本情况复杂,各个恶意代码样本所采用的混淆方法是动态变化的,并且不同样本所提取的特征值分布也是不同的;因此对于每个样本而言,需要动态求解样本混淆值的大小;各恶意代码样本中混淆特征值的阈值ξ,简称混淆阈值,ξ是样本中混淆特征值中最小值,该最小值在不同样本中是动态变化的;为了更好的衡量和表征该值的大小;定义了如下两个指标,分别为特征预期值Featureaverages和特征标准值Featuremedian;这两个指标是通过对单个样本的动态求解而得到的,用于描述该样本中的特征分布情况;该函数反应了阈值与预期值和标准值之间的关系:ξ=α*Featureaverages+β*Featuremedian,α和β分别为特征预期值和特征标准值的权重;

2)特征预期值Featureaverages代表了样本最原始情况下特征值理想的取值情况;通过计算该样本中各特征值的总和并求平均,得到一个在当前样本分布情况下的特征值的理想取值;考虑到n-gram算法在对大部分恶意代码样本进行特征提取时,会造成样本中含有大量只出现过单次的无效特征;因此在计算特征预期值Featuremedian时通过对样本中各特征值进行去重后,再进行求平均操作;这样的处理会消除大量噪音数据对均值的影响;m是去重后所剩特征个数,featurei代表第i个特征的特征值大小;

特征预期值的计算:

3)特征标准值Featuremedian用于降低较大的混淆特征值对最终结果的干扰,特征标准值是通过计算样本中所有特征值的中位数而得到,较好的反应样本在未受干扰时,特征值的理想取值;由于在一份恶意代码样本中,整体的特征值分布情况趋于高斯分布,其中的混淆特征在其特征分布中只占非常少的比例;虽然混淆特征值对特征标准值也会造成影响;但是由于混淆特征值在特征分布中所占比例较低,因此通过求解分布中的中位数取值,得到一个非常接近去除混淆后理想特征值取值的范围;m是去重后所剩特征个数,featurei代表第i个特征的特征值大小;mid函数是求解序列的中位数;特征标准值计算函数:

Featuremedian=mid(feature1,feature2,...,featurem)。

2.根据权利要求1所述的一种恶意代码混淆特征清洗方法,其特征在于:在对恶意代码样本集进行特征提取时,利用混淆特征值清洗方法得到经过初步处理的除混淆特征库;该特征库中对训练模型产生较大干扰的混淆特征值已经被清除,但是如果直接基于该特征库进行模型训练,很难取得好的效果;由于恶意代码样本集中存在多种家族的变种恶意代码,会造成特征库中特征数目过于庞大;考虑到在这些特征值较小的特征中,除大多数的噪音数据,还有部分属于恶意代码中重要的家族特征;这些家族特征只出现过较少的次数,因此如果将特征值较小的特征全部清除,不可避免的会清除部分好特征对模型的精度产生干扰;为能够进一步的对除混淆特征库进行清洗,在消除大部分的噪音数据的同时保留重要的恶意代码家族特征;

采用一种基于输入训练数据集规模的特征选择方法实现,具体技术方案如下:

1)由于恶意代码样本的多样性,各个样本中特征向量的取值范围也是不同的;对于同一数值的特征值,在不同样本中的重要程度是不同的;为了能够消除因取值范围不同,对最终衡量特征时造成的影响;本方法提出了一种基于占比的标准化操作;对于单个样本,通过计算单个样本中各特征值与特征值总合的比例,衡量各特征值在样本中的重要程度;featurei'代表了标准化后featurei新的取值;特征标准算法:

2)对于标准化后的训练特征库,单个样本所有特征值之和为1;因此对于输入总样本数S,所有的特征值之和为S;为了能够消除单个样本中噪音数据的同时,并不破坏其中某些重要的家族特征;本方法提出了一种基于输入样本数S,训练集中恶意代码家族类别数n的特征选择方法;对于混淆特征库中各样本特征向量进行标准化处理后,再对所有出现的特征进行累加,得到基于样本集的各特征总和特征值;由于恶意代码家族特征会在相同家族样本中会重复出现,因此该特征值经过累加后会提高最终特征值的大小;而对于其余的噪音数据,由于其特征仅仅只在个别样本中出现,因此在其余样本中该特征值为0;最终累加值在整体样本特征中,所占的比例也会相应的降低;对于某个特征Featurei的值是由所有样本文件中该特征的取值之和;其中Featurei是最终第i个特征的取值,S为训练集样本个数,featurei代表各个样本中当前特征的取值;

特征选取公式:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810013584.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top