[发明专利]恶意软件识别方法、装置及存储介质在审
申请号: | 202010134497.1 | 申请日: | 2020-02-28 |
公开(公告)号: | CN111382783A | 公开(公告)日: | 2020-07-07 |
发明(设计)人: | 张九经;李树栋;吴晓波;韩伟红;方滨兴;田志宏;殷丽华;顾钊铨;仇晶;王乐;李默涵;唐可可 | 申请(专利权)人: | 广州大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06F21/56 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郭浩辉;麦小婵 |
地址: | 510006 广东省广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 恶意 软件 识别 方法 装置 存储 介质 | ||
1.一种恶意软件识别方法,其特征在于,包括:
提取样本软件执行序列特征;其中,所述样本软件执行序列特征包括API特征、PID特征以及RET特征;
利用所述API特征、所述PID特征以及所述RET特征训练GCForest模型;其中,所述GCForest模型包括级联森林模块,且所述GCForest模型的最终预测结果由最终决策学习器输出;
使用训练后的GCForest模型对恶意软件进行识别。
2.根据权利要求1所述的恶意软件识别方法,其特征在于,所述提取样本软件执行序列特征,具体为:
抓取所述样本软件的xml文件中的api_name、call_pid、ret_value;
根据所述api_name、所述call_pid、所述ret_value使用规则匹配和频数统计提取所述样本软件的所述API特征、所述PID特征以及所述RET特征。
3.根据权利要求2所述的恶意软件识别方法,其特征在于,所述根据所述api_name、所述call_pid、所述ret_value使用规则匹配和频数统计提取所述样本软件的所述API特征、所述PID特征以及所述RET特征,具体为:
当所述样本软件的api_name中包含第一字符串时,确定所述样本软件的所述API特征的值为1,否则为0;其中,所述第一字符串为恶意软件的api_name中的任一字符串;
当所述样本软件的call_pid中包含第二字符串时,确定所述样本软件的所述PID特征的值为所述第二字符串出现的频数;其中,所述第二字符串为恶意软件的call_pid中的任一字符串;
当所述样本软件的ret_value中包含第三字符串时,确定所述样本软件的所述RET特征的值为所述第三字符串出现的频数;其中,所述第三字符串为恶意软件的ret_value中的任一字符串。
4.根据权利要求1所述的恶意软件识别方法,其特征在于,所述利用所述API特征、所述PID特征以及所述RET特征训练GCForest模型,具体为:
S21:将提取到的所述API特征、所述PID特征以及所述RET特征的结果合并规范为第一特征向量,并分为训练集和交叉验证集,将所述训练集送入所述GCForest模型,训练所述GCForest模型的第一森林层的基学习器以及最终决策学习器;
S22:将所述第一森林层和所述最终决策学习器进行连接以得到第一GCForest模型,并使用所述第一GCForest模型对所述交叉验证集进行预测,将预测结果与预设的标签对比验证,计算第一准确率;
S23:将上一森林层输出的类概率向量与所述训练集的第一特征向量进行连接,得到新的特征向量作为下一森林层的输入,使用所述新的特征向量训练下一森林层,并连接所述最终决策学习器得到新的GCForest模型,并使用所述新的GCForest模型对所述交叉验证集进行预测,将预测结果与所述预设的标签对比验证,计算当前准确率;
S24:若当前准确率大于前一森林层的准确率,则更新当前最高准确率及所述当前最高准确率对应的森林层,并重复步骤S23;
S25:当准确率不再提升时,停止训练,将准确率最高的森林层与所述最终决策学习器进行连接以得到所述训练后的GCForest模型。
5.根据权利要求4所述的恶意软件识别方法,其特征在于,所述GCForest模型的任一森林层的基学习器至少由以下算法之一构成:随机森林、极端随机树、极端梯度提升、轻量级梯度提升机、类别提升、逻辑回归。
6.一种恶意软件识别装置,其特征在于,包括:特征提取模块、模型训练模块以及软件识别模块;其中,
所述特征提取模块用于提取样本软件执行序列特征;其中,所述样本软件执行序列特征包括API特征、PID特征以及RET特征;
所述模型训练模块用于利用所述API特征、所述PID特征以及所述RET特征训练GCForest模型;其中,所述GCForest模型包括级联森林模块,且所述GCForest模型的最终预测结果由最终决策学习器输出;
所述软件识别模块用于使用训练后的GCForest模型对恶意软件进行识别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州大学,未经广州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010134497.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电磁铁控制装置、控制方法以及电磁继电器
- 下一篇:低慢小目标安全拦截装置