[发明专利]基于统计学习的恶意代码多模型交叉检测方法有效
申请号: | 201810815327.2 | 申请日: | 2018-07-24 |
公开(公告)号: | CN109033836B | 公开(公告)日: | 2021-07-20 |
发明(设计)人: | 王志;余沛然;孙心怡;魏然;邱克帆 | 申请(专利权)人: | 南开大学 |
主分类号: | G06F21/56 | 分类号: | G06F21/56 |
代理公司: | 天津耀达律师事务所 12223 | 代理人: | 侯力 |
地址: | 300071*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 统计 学习 恶意代码 模型 交叉 检测 方法 | ||
本发明提出了一种基于统计学习的恶意代码多模型交叉检测方法,可较好地应用于在恶意代码检测领域。该方法引入可信度,解决各个机器学习模型彼此孤立的问题,提供一个机器学习模型间互相学习的平台。另外,在细粒度的统计学习平台上,多个机器学习模型从不同角度统计分析恶意代码的变异过程,缓解单一模型的退化问题,并使用APV算法来识别概念漂移现象,从而实现多模型共同防御。
技术领域
本发明属于计算机防病毒技术领域。
背景技术
人工分析已经难以及时分析如此海量的新增恶意代码,因此机器学习技术已经广泛的应用到恶意代码分析与检测系统中。但是,网络安全威胁在不断地快速变异和演化,在数量增长的同时,超过70%的新恶意代码样本采用了躲避机器学习的自我保护技术,有的样本甚至使用了多种躲避技术。因此,恶意代码的数据分布规律和显著水平在随时间不断的变化,导致基于机器学习的检测模型存在严重的快速退化问题。这就要求恶意代码分析模型需要根据网络安全威胁的变化进行动态调整,快速吸收新的知识,还需要对过去的威胁预测进行修正。
发明内容
本发明目的是解决现有的恶意代码的变异问题,以及各种机器学习模型的预测结果不能相互对比和共同防御的问题,提供一种基于统计学习的恶意代码多模型交叉检测方法。该方法提供一个多模型的开放平台,各种基于不一致打分机制的检测模型都可以整合进该平台。在根据已知恶意代码样本进行训练后,每个模型都会对未知样本计算一个不一致得分,统计学习对不一致得分进行统计分析,得到样本在不同模型上的显著度得分。根据显著度得分,选择得分最高的模型的预测结果作为最终多模型的预测结果,实现基于统计学习的交叉检测。
本发明的技术方案
基于统计学习的恶意代码多模型交叉检测方法,包括如下步骤:
步骤1、底层打分分类方法,包括如下步骤:
第1步、基本概念:
(1)网络流量(Netflow):是同一网络通信时域的网络包的集合;
(2)网络痕迹(Trace):是一组含有相同源IP、目的IP、目的端口和协议的多个网络流量(Netflow);
(3)僵尸网络(Botnet):指采用一种或多种传播手段,将大量主机感染僵尸程序(Bot),从而在控制者和被感染主机之间所形成的一个能够一对多控制的网络;
(4)基于机器学习的检测模型:数据,学习算法,找到一个阈值(实现最佳的区分)建立模型,通过模型打分,比较打分和阈值的关系,预测结果。
第2步、特征提取
第2.1、确定网络行为的表示粒度,其中包括:数据包级粒度,每个数据包表示一个网络行为; NetFlow级粒度,一个网络连接过程的所有网络数据表示一个网络行为;应用级粒度,一个应用过程的所有数据包表示一个网络行为;
第2.2、提取网络行为的特征点f;根据不同的数据集,选择不同的网络行为特征点f;
第2.3、选择特征点,将网络行为抽象成特征向量V;在可选网络行为特征点中,选择n个特征点组成特征向量V(f1,f2,...fn),使用选择的网络行为特征点作为网络行为的抽象表示,将二进制的网络数据映射成特征点组成的特征向量;
第2.4、网络恶意行为集合的特征矩阵表示;网络恶意行为集合中包含了N个行为,每个行为都使用相同结构的特征向量Vi表示,1≤i≤N,这N个特征向量组成网络恶意行为特征矩阵C;特征矩阵的每一列表示一个特征点、每一行表示一个网络恶意行为的特征向量;
第3步、计算机器学习模型的预测分数
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810815327.2/2.html,转载请声明来源钻瓜专利网。