[发明专利]一种基于多视集成学习的恶意软件检测方法在审

专利信息
申请号: 201510444323.4 申请日: 2015-07-24
公开(公告)号: CN105138913A 公开(公告)日: 2015-12-09
发明(设计)人: 王俊峰;白金荣 申请(专利权)人: 四川大学
主分类号: G06F21/56 分类号: G06F21/56
代理公司: 成都信博专利代理有限责任公司 51200 代理人: 崔建中
地址: 610065 四川*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 集成 学习 恶意 软件 检测 方法
【说明书】:

技术领域

发明涉及网络安全中的恶意软件检测方法,具体为一种基于多视集成学习的恶意软件检测方法。

背景技术

恶意软件通常指带有恶意目的的程序,常被用于破坏数据、运行入侵程序、窃取敏感信息、控制受害者的电脑、为恶意软件控制者谋取非法利益等。此外,恶意软件相当多数扮演着“间谍软件”的角色,它们侵蚀着各国的政治、经济、文化、军事等各个领域的信息安全。恶意软件包括病毒、木马、蠕虫、后门程序、Rootkit、Dos、Exploit等。据Symantec公司发布的2015互联网安全威胁报告,2014年该公司共捕获3.17亿个新恶意软件,平均每天接近100万个新的恶意软件释放到互联网。如此数目庞大的恶意软件已经成为互联网的最大安全威胁,严重影响了世界各国的信息安全。

当前的杀毒软件主要使用特定的字节序列作为特征码检测已知的恶意软件,但这种方法对新的、未知的恶意软件通常是无效的,能检测的恶意软件经过简单加壳或混淆后又不能检测,使用多态和变形技术的恶意软件在传播的过程中不断随机的改变着二进制文件内容,没有固定的特征,使用该方法也不能检测。据Symantec公司发布的2015互联网安全威胁报告,基于特征码的方法仅能检测2014年捕获的所有恶意软件中的13.9%。除此之外,分析人员手动提取恶意软件特征码的速度已经不能匹配恶意软件增长速度,这些都给恶意软件的检测工作带来了严峻挑战。

由于当前杀毒软件存在较多的局限性,迫切需要研究新的有效的恶意软件检测方法。近年来研究人员提出了基于数据挖掘和机器学习的恶意软件检测方法,这些方法从大量的恶意软件样本中学习识别规则,以实现恶意软件的智能检测。这些方法都是通过随机抽样的方法划分训练集和测试集,测试集对于训练集是未知的,可以验证所提出的方法检测未知恶意软件的性能。但现实场景中,恶意软件检测方法必须基于已存在的样本集训练分类模型,使用训练好的分类模型检测新出现的未知恶意软件。现有的检测方法中,无论训练集还是测试集,都是新旧样本混合,无法评估检测新出现的未知恶意软件的性能。

基于数据挖掘和机器学习的恶意软件检测方法将可执行文件表示成不同抽象层次的特征,使用这些特征来训练分类模型。某一种类型的特征都从不同的侧面反映刻画了可执行文件的一些性质,部分捕捉到了恶意软件和良性软件的区分信息,但都存在着一定的局限性,不能充分、综合、整体的表示可执行文件的本质。各种类型的特征具有自身的优势,特征类型间存在着互补,融合这些不同抽象层次的特征可更好的发现软件的真正性质。此外,由于学习算法的假设是各不相同的,不存在对各种类型问题都最优的学习算法。针对不同的特征,选择适合的分类算法并不是一项容易的工作。不同的分类算法都存在着归纳偏置,融合各种学习算法也可发挥各自优势,克服其不足,从而提高分类算法的准确率,降低误报率,改进分类算法的泛化性能。

集成学习指按照多样和准确的原则产生多个具有独立决策能力的分类器,并按照某种策略组合这些独立的分类器解决一个同样的问题。在真实情况下,每个分类算法都有其局限性,都会犯错误,组合多个分类算法将修正单个分类器的错误,降低总体的错误率,从而有效地提高学习系统的泛化能力。集成学习的原理是专家委员会思想,把具有独立决策能力的分类器当作专家。在日常生活中进行重要决策前,征询多个专家观点,然后权衡每个观点,组合这些观点形成最终决策,其中蕴含的哲学思想是“三个臭皮匠,顶一个诸葛亮”。大量的实验和理论研究显示:集成学习一般比单个学习算法取得更好的分类准确率,当存在更多样性的基分类器时,提升更明显。严格来说,集成学习并不算是一种分类器,而是一种分类器组合的方法。集成学习可从多个层次构建,从而产生各具特色的集成学习方法。图1显示了构建集成学习的四个层次,集成学习可单独在某个层次构建,也可同时在多个层次构建。

数据层控制提交到学习算法的数据,确保产生足够多样且准确的分类模型。该方法通过抽样技术操纵训练集生成不同训练子集,不同训练子集用于训练多个基分类器,然后使用不同的集成策略组合基分类器。这种技术对不稳定的学习算法很有用,特别是训练数据中微小的变化容易导致分类器输出发生明显的变化的学习算法。Bagging和Boosting是这种方法最典型的例子。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510444323.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top