[发明专利]一种基于多维度行为特征的恶意代码分类方法有效
申请号: | 201611164764.X | 申请日: | 2016-12-15 |
公开(公告)号: | CN106709349B | 公开(公告)日: | 2019-10-29 |
发明(设计)人: | 喻波;方莹;唐勇;陈曙晖;杨强;周旭 | 申请(专利权)人: | 中国人民解放军国防科学技术大学 |
主分类号: | G06F21/56 | 分类号: | G06F21/56 |
代理公司: | 湖南兆弘专利事务所(普通合伙) 43008 | 代理人: | 周长清 |
地址: | 410073 湖南省长沙市砚瓦池正街4*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 频度信息 系统函数调用 函数调用 时间差信息 恶意代码 行为特征 行为数据 多维度 归一化处理 典型分类 构建系统 机器学习 加权计算 建立系统 交叉验证 特征空间 提取系统 行为分类 时间差 频度 分类 样本 合并 统计 | ||
1.一种基于多维度行为特征的恶意代码分类方法,其特征在于,步骤为:
S1:获得恶意代码的行为数据;
S2:系统函数调用时间差信息提取;按照行为数据中函数调用的顺序,计算相邻两个系统函数调用的时间差,构建系统函数调用的时间差信息表;
S3:系统函数调用频度信息提取;从行为数据中提取系统函数调用的名称,统计每个系统函数调用的频度,建立系统函数调用的频度信息表;
S4:行为分类频度信息提取;
S5:将时间差信息表、系统函数调用的频度信息表、行为类别的频度信息表分别进行加权计算和归一化处理,并进一步处理时间差信息表特征,处理后合并成一个新的特征空间;
S6:对所有家族样本的行为特征,采用机器学习的分类方法,进行交叉验证。
2.根据权利要求1所述的基于多维度行为特征的恶意代码分类方法,其特征在于,所述步骤S1中的行为数据包括:函数调用名称、函数调用时间、输入参数、输出参数、函数执行结果、以及函数执行需要的上下文信息。
3.根据权利要求1所述的基于多维度行为特征的恶意代码分类方法,其特征在于,在上述步骤S5之后,输出为单个恶意代码的特征向量,同时这些向量自动归类,再以此作为构成样本家族的特征向量,用于训练以后的分类器。
4.根据权利要求3所述的基于多维度行为特征的恶意代码分类方法,其特征在于,所述训练的过程为:首先将样本集合随机分为测试集和训练集,并分别进行多维特征提取与处理;然后对训练集中特征进行标记,得到特征库并训练分类器;之后利用训练好的分类器对测试集进行分类,得到最后的分类结果。
5.根据权利要求1或2或3或4所述的基于多维度行为特征的恶意代码分类方法,其特征在于,所述步骤S4的具体流程为:
S4.1:定义恶意代码的行为类别;
S4.2:根据行为分类模型,对系统函数调用频度按照分类进行频率计算,建立恶意代码的行为类别频度信息表。
6.根据权利要求5所述的基于多维度行为特征的恶意代码分类方法,其特征在于,所述行为类别包括:文件行为类、注册表行为类、网络行为类、进程行为类、服务行为类、时间行为类、驱动行为类、GUI行为类、系统行为类;所述行为类别构成了恶意代码的行为分类模型。
7.根据权利要求1或2或3或4所述的基于多维度行为特征的恶意代码分类方法,其特征在于,所述步骤S5的具体流程为:
S5.1:采用基于TF-IDF方法对恶意代码的行为特征进行加权计算,计算方法如下:
设定t=(x1,x2,…xm)是恶意代码样本d中的维度为m的特征,N是训练集中所有样本的总数,n表示训练集中所有出现特征t的样本数,e表示恶意代码家族数目;TF-IDF方法计算特征t权重的具体实施过程如下:
S5.1.1:计算特征t对于每个特征家族ci的后验概率P(ci|t);P(ci|t)是家族ci中出现特征t的次数与整个待训练集中出现特征t的次数之比,t在每一个家族中的后验概率构成了在整个类别之间的分布;
S5.1.2:定义特征t的区分能力;为了表示特征t的家族区分能力,基于特征t对于每个家族的后验概率P(ci|t)定义特征t的区分能力为:
每个特征t基于TD-IDF加权后的权值为:
其中,tf(t,d)是恶意代码样本特征t出现的次数与它所在的家族恶意代码样本中所有恶意代码样本特征出现的总次数的比值,即表示了恶意代码样本特征t在家族恶意代码样本中出现的频率;
S5.1.3:利用权重w(t,d)对特征t进行加权;则加权公式如下所示:
tw=t×w(t,d)
即:
S5.2:对每个维度的特征值进行归一化处理;设定为的最大值,则归一化公式如下所示:
即:
S5.3:进一步处理时间差信息表特征,得到具有分类能力的特征;
S5.3.1:计算时间差信息表中维度为m的特征的特征值之和fm;
S5.3.2:计算时间差信息表中恶意代码家族ci对应m维度特征的特征值之和
S5.3.3:计算各个家族维度m的特征所占比例
S5.3.4:选出维度m相同时的最大值,设为ratiom;
S5.3.5:设定阈值th1,当ratiom>th1时,保留维度为m的特征;
S5.3.6:设定阈值th2,当fm>th2时,保留维度为m的特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611164764.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:组装粘贴机及其粘贴机构
- 下一篇:一种基于文本内容的长词识别方法及系统