[发明专利]一种基于深度森林的恶意代码分类方法有效
申请号: | 201811187770.6 | 申请日: | 2018-10-12 |
公开(公告)号: | CN109344618B | 公开(公告)日: | 2021-10-08 |
发明(设计)人: | 钱叶魁;卢喜东;杜江;杨瑞朋;黄浩;雒朝峰;宋彬杰;李宇翀 | 申请(专利权)人: | 中国人民解放军陆军炮兵防空兵学院郑州校区 |
主分类号: | G06F21/56 | 分类号: | G06F21/56;G06K9/62 |
代理公司: | 深圳市威世博知识产权代理事务所(普通合伙) 44280 | 代理人: | 李庆波 |
地址: | 450052 河*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 森林 恶意代码 分类 方法 | ||
1.一种基于深度森林的恶意代码分类方法,其特征在于,包括以下步骤:
步骤一:数据预处理,将恶意代码二进制文件映射为图像,并对所述图像进行缩放和标准化处理;对所述图像进行缩放处理采用双三次插值法,选取所述图像待插值点周围16个点的灰度值作为三次插值,构造基函数的公式为:
双三次插值公式为:
其中,(x,y)为所述图像中待插值的像素点,
(xi,yi)(i,j=0,1,2,3)为所述待插值的像素点4×4邻域点;
步骤二:提取所述图像的HOG特征向量集f;
步骤三:将所述HOG特征向量集转化为矩阵,并且分为训练集和测试集;
步骤四:构建随机森林;
步骤五:构建完全随机森林;
步骤六:构建深度森林,所述深度森林由多粒度扫描和级联森林两部分组成的多层结构,每层结构的多粒度扫描和级联森林均包括相等数量的随机森林和完全随机森林,所述训练集用于训练深度森林,所述测试集用于评估所述深度深林;
步骤七:用深度森林对所述图像进行分类,即完成对所述图像对应的恶意代码的分类;用深度森林对恶意代码进行分类的方法包括以下步骤:
步骤7-1:使用滑动窗口W×W和扫描步长S扫描所述训练集,将每个滑动窗口中的特征作为多粒度扫描的输入,输出每个滑动窗口中特征的概率向量;
步骤7-2:将多粒度扫描输出的所有概率向量按一定方式串联作为第一层的级联森林的输入,在级联森林的第二层,将第一层的级联森林的输入和第一层的级联森林的输出作为第二层的级联森林的输入,在级联森林的第三层,将第一层的级联森林的输入和第二层的级联森林的输出作为第三层的级联森林的输入,依次类推,在后续的每一层中,均将第一层的级联森林的输入和上一层的级联森林的输出作为本层的级联森林的输入;
同时,级联森林每运算一层,使用测试集对已经生成的整个深度森林进行测试,如果测试集的准确率小于上一层的准确率,深度森林停止生长,级联森林的层数不在增加;否则继续增加级联森林的层数,直到测试集的准确率小于上一层的准确率为止;
步骤7-3:对最后一层的级联森林的所有输出的概率向量取均值,输出具有最大概率那一类的标签,作为最终恶意代码预测类别。
2.根据权利要求1所述基于深度森林的恶意代码分类方法,其特征在于,在步骤一中,将恶意代码二进制文件映射为图像的过程包括以下步骤:
步骤1-1:对所述恶意代码二进制文件,读取8bit为一个无符号的整型,固定的行宽为一个向量,生成一个二维数组;
步骤1-2:所述二维数组的每个元素范围取值为[0,255],其中0表示黑色,255表示白色,将所述二维数组可视化为一个灰度图像;
步骤1-3:所述灰度图像保存为无压缩的图像。
3.根据权利要求2所述基于深度森林的恶意代码分类方法,其特征在于,在步骤一中,对所述图像标准化处理采用Gamma校正法对所述图像进行颜色空间的标准化,Gamma校正公式如下:
I(x′,y′)=I(x,y)Gamma,其中I(x,y)表示在点(x,y)的像素值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军陆军炮兵防空兵学院郑州校区,未经中国人民解放军陆军炮兵防空兵学院郑州校区许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811187770.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种物联网资产安全画像方法与系统
- 下一篇:应用程序的热修复方法和装置