[发明专利]一种恶意代码混淆特征清洗方法在审
申请号: | 201810013584.4 | 申请日: | 2018-01-08 |
公开(公告)号: | CN108287996A | 公开(公告)日: | 2018-07-17 |
发明(设计)人: | 王栎汉;宁振虎;薛菲;蔡永泉;梁鹏 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F21/56 | 分类号: | G06F21/56;G06K9/62 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 混淆 恶意代码 恶意代码特征 清洗 特征提取算法 模型识别 特征选择 特征库 信息安全领域 训练数据集 机器学习 特征提取 提取算法 异常数据 有效时限 构建 算法 保证 | ||
本发明公开了一种恶意代码混淆特征清洗方法,属于机器学习信息安全领域。本方法包括特征选择方法和混淆特征清洗方法,提高传统恶意代码特征提取方法的有效性。相较于传统恶意代码特征提取方法,本发明能够有效延长恶意代码特征提取算法的有效时限,并提高特征提取算法的抗干扰性。本发明首先通过n‑gram特征提取方法构建特征库。由于该特征提取算法无法解决恶意代码的混淆操作,造成特征库中含有大量恶意代码的混淆特征值。通过混淆特征清洗算法,可以消除异常数据对模型识别规则的干扰。在此基础上从训练数据集规模的角度上,提出一种特征选择方法。该方法在保证模型识别精度不下降的基础上,有效降低模型最终使用的特征数目。
技术领域
本发明涉及一种恶意代码混淆特征去除方法,能够提高传统恶意代码特征提 取方法的有效时限。属于机器学习信息安全领域,涉及机器学习分类算法与混淆 特征去除和特征选择算法的结合及使用。
背景技术
据Symantec统计,大部分新出现的恶意代码都是在原有恶意代码基础上, 经过一些变换操作后生成。因此通常恶意代码检测是基于特征向量的,该特征向 量标识了恶意代码的本质特征。良好的特征提取算法是恶意代码变种检测的核心 技术。常见的反病毒软件通常使用基于签名的方法来识别恶意代码。对于给定一 组恶意代码样本,首先将该恶意代码标注为一个家族。对于同一个家族的恶意代 码,应当具有相同的特征。将这些公共的特征提取出来,构建特征库,用于检测 该恶意代码家族的变种。但是这种基于特征库的检测系统,其安全性依赖于所采 用特征提取方法的有效性。这是由于新的变种恶意代码会针对以往的特征提取方 法进行干扰,进而达到绕过检测系统的目的。例如在基于关键字符串的恶意代码 检测系统中,恶意代码通过对关键字符串进行等价替换或者无效字符串的加入逃 脱检测系统的识别。针对恶意代码对特征提取所采用的混淆操作,已有许多学者 提出了各种不同恶意代码特征提取方法,以期能够消除恶意代码混淆操作对检测 系统造成的影响,获取最佳的恶意代码检测效果。然而一方面这些特征提取方法 会逐渐被恶意代码攻破,另一方面更为安全的特征提取方法也会造成计算资源开 销过大,系统实时性较差等问题。
现阶段恶意代码检测技术的研究,主要集中在对恶意代码特征向量的提取 中。为了提高恶意代码特征向量的抗干扰性。研究人员从安全属性、依赖关系、 真实语义多个角度对恶意代码进行特征提取。Kirda等人利用间谍代码获取用户 敏感数据,再将泄露数据的行为特征进行检测。但该方法仅限于检测间谍类的恶 意代码,无法检测其他未对数据造成泄露的恶意代码。王蕊等人,从恶意代码实 际语义的角度出发,通过构建基于恶意代码语义的行为特征图,利用该特征图来 计算特征值对恶意代码进行检测取得了非常良好的检测效果。但是该方法是基于 程序行为本身的检测方法,没有考虑到程序对于资源的调用问题,因此对于某些 特殊变种的恶意代码无法很好的识别。并且该方法时效性较差,需要较大的计算 资源,不具备实用性。
而随着恶意代码迭代速度的加快,特征提取方法的时效性也越来越短。通过 更换特征提取方法来维持系统的安全性变的越来越困难。因此如何有效地消除特 征库中混淆特征成为有很强实际意义的问题。
发明内容
为了解决传统恶意代码特征提取方法的有效时限较短的问题,本发明采用的 技术方案为一种混淆特征清洗算法和特征选择方法,混淆特征清洗算法是一种针 对n-gram恶意代码特征提取算法的,恶意代码混淆特征去除方法。该混淆特征 清洗算法能够在少量分析恶意代码样本,对样本库中其余恶意代码进行特征清 洗。最终得到的特征库具有特征数目稳定,不易受到混淆等特点。特征选择方法 则能够根据训练数据样本集,自动化的替换特征库中选择的特征达到优化特征库 的特点。
一种恶意代码混淆特征清洗方法,本方法包括特征选择方法和混淆特征清洗 方法,提高传统恶意代码特征提取方法的有效性。相较于传统恶意代码特征提取 方法,本发明能够有效延长恶意代码特征提取算法的有效时限,并提高特征提取 算法的抗干扰性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810013584.4/2.html,转载请声明来源钻瓜专利网。