[发明专利]一种恶意代码混淆特征清洗方法在审

专利信息
申请号: 201810013584.4 申请日: 2018-01-08
公开(公告)号: CN108287996A 公开(公告)日: 2018-07-17
发明(设计)人: 王栎汉;宁振虎;薛菲;蔡永泉;梁鹏 申请(专利权)人: 北京工业大学
主分类号: G06F21/56 分类号: G06F21/56;G06K9/62
代理公司: 北京思海天达知识产权代理有限公司 11203 代理人: 沈波
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种恶意代码混淆特征清洗方法,属于机器学习信息安全领域。本方法包括特征选择方法和混淆特征清洗方法,提高传统恶意代码特征提取方法的有效性。相较于传统恶意代码特征提取方法,本发明能够有效延长恶意代码特征提取算法的有效时限,并提高特征提取算法的抗干扰性。本发明首先通过n‑gram特征提取方法构建特征库。由于该特征提取算法无法解决恶意代码的混淆操作,造成特征库中含有大量恶意代码的混淆特征值。通过混淆特征清洗算法,可以消除异常数据对模型识别规则的干扰。在此基础上从训练数据集规模的角度上,提出一种特征选择方法。该方法在保证模型识别精度不下降的基础上,有效降低模型最终使用的特征数目。
搜索关键词: 混淆 恶意代码 恶意代码特征 清洗 特征提取算法 模型识别 特征选择 特征库 信息安全领域 训练数据集 机器学习 特征提取 提取算法 异常数据 有效时限 构建 算法 保证
【主权项】:
1.一种恶意代码混淆特征清洗方法,本方法包括特征选择方法和混淆特征清洗方法,提高传统恶意代码特征提取方法的有效性;首先通过n‑gram特征提取方法构建特征库;由于该特征提取算法无法解决恶意代码的混淆操作,造成特征库中含有大量恶意代码的混淆特征值;通过混淆特征清洗算法,消除异常数据对模型识别规则的干扰;在此基础上从训练数据集规模的角度上,提出一种特征选择方法;该方法在保证模型识别精度不下降的基础上,有效降低模型最终使用的特征数目;其特征在于:本方法的实施流程如下,1)基于多样本分析,构建混淆特征清洗方法;该方法通过对少量样本数据的详细分析,发现样本中混淆特征的特点并构建线性回归算法模型;2)基于该混淆特征清洗方法动态计算其余各样本中混淆特征值的阈值,并基于该值对样本库中其余样本的特征向量进行混淆清除;3)根据样本输入训练集构建特征选择方法;该方法首先对得到的特征向量进行归一化处理,并依据输入训练样本数目,动态清除在数据集中贡献较小的特征值;具体实现步骤如下:1)考虑到恶意代码样本情况复杂,各个恶意代码样本所采用的混淆方法是动态变化的,并且不同样本所提取的特征值分布也是不同的;因此对于每个样本而言,需要动态求解样本混淆值的大小;各恶意代码样本中混淆特征值的阈值ξ,简称混淆阈值,ξ是样本中混淆特征值中最小值,该最小值在不同样本中是动态变化的;为了更好的衡量和表征该值的大小;定义了如下两个指标,分别为特征预期值Featureaverages和特征标准值Featuremedian;这两个指标是通过对单个样本的动态求解而得到的,用于描述该样本中的特征分布情况;该函数反应了阈值与预期值和标准值之间的关系:ξ=α*Featureaverages+β*Featuremedian,α和β分别为特征预期值和特征标准值的权重;2)特征预期值Featureaverages代表了样本最原始情况下特征值理想的取值情况;通过计算该样本中各特征值的总和并求平均,得到一个在当前样本分布情况下的特征值的理想取值;考虑到n‑gram算法在对大部分恶意代码样本进行特征提取时,会造成样本中含有大量只出现过单次的无效特征;因此在计算特征预期值Featuremedian时通过对样本中各特征值进行去重后,再进行求平均操作;这样的处理会消除大量噪音数据对均值的影响;m是去重后所剩特征个数,featurei代表第i个特征的特征值大小;特征预期值的计算:3)特征标准值Featuremedian用于降低较大的混淆特征值对最终结果的干扰,特征标准值是通过计算样本中所有特征值的中位数而得到,较好的反应样本在未受干扰时,特征值的理想取值;由于在一份恶意代码样本中,整体的特征值分布情况趋于高斯分布,其中的混淆特征在其特征分布中只占非常少的比例;虽然混淆特征值对特征标准值也会造成影响;但是由于混淆特征值在特征分布中所占比例较低,因此通过求解分布中的中位数取值,得到一个非常接近去除混淆后理想特征值取值的范围;m是去重后所剩特征个数,featurei代表第i个特征的特征值大小;mid函数是求解序列的中位数;特征标准值计算函数:Featuremedian=mid(feature1,feature2,...,featurem)。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201810013584.4/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top