[发明专利]一种恶意代码检测方法及系统有效
申请号: | 201911270920.4 | 申请日: | 2019-12-12 |
公开(公告)号: | CN111143842B | 公开(公告)日: | 2022-07-01 |
发明(设计)人: | 范美华;李树栋;吴晓波;韩伟红;杨航锋;付潇鹏;方滨兴;田志宏;殷丽华;顾钊铨;仇晶;李默涵;唐可可 | 申请(专利权)人: | 广州大学 |
主分类号: | G06F21/56 | 分类号: | G06F21/56;G06K9/62 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 李斌 |
地址: | 510006 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 恶意代码 检测 方法 系统 | ||
1.一种恶意代码检测方法,其特征在于,包括下述步骤:
S1、将每个恶意代码运行过程中的WindowsAPI动作序列视作一个具有上下文关系的文本,分别使用TF-IDF和Doc2vec进行特征抽取;TF-IDF是用来评估特定词语在语料库中重要程度,其中TF计算词语出现的频率,IDF用以衡量词语对于文本类型的区分度;TF-IDF算法流程具体为:
S11、计算每个WindowsAPI函数在动作序列中出现的频率TF以及包含该WindowsAPI的动作序列所占总数据集的比例IDF;
S12、根据TF和IDF计算WindowsAPI函数在动作序列中的TF-IDF,将动作序列向量化;
Doc2vec是Word2vec的扩展,通过训练神经网络学习文本的特定长度向量表示,文本向量不仅包含了上下文信息,还包含了文本整体的语义信息;Doc2vec算法流程具体为:
S13、构建Doc2vec模型结构,并设置模型参数,
S14、训练Doc2vec模型,利用随机梯度下降和反向传播从已知的训练数据中学习词向量、模型参数以及文本向量;
S15、推断过程,按照设置的参数和步骤更新文本矩阵D,学习新文本的向量表示;
S2、在分别获得TF-IDF和Doc2vec特征矩阵后,将TF-IDF和Doc2vec抽取到的特征进行拼接,降维后获得恶意代码的特征矩阵;
S3、构造基于聚类的集成分类改进模型,该集成分类改进模型基于集成学习的思想,分别采用多个基学习器对数据集进行分类,并在最后采用投票的方式获得最终分类结果,所述集成分类改进模型训练,在每个基学习器中采用基于聚类的分块分类方法进行训练,具体流程如下:
S31、用k-means算法将数据划分为k个数据子集,K个类簇中有一部分类簇只含有一种类别Ci的数据,将这种类簇视为单一类别类簇,标记类簇类别为Ci;
S32、对噪音点进行过滤,过滤掉类簇中其他数据类别不同且数量在簇中占比极小的点;
S33、将过滤后仍然含有多个类别数据的类簇合并为一个大的混合类簇,数据被划分为m个类簇,其中{C1,C2,…,Cm-1}为单一类簇,Cm为混合类簇,类簇向量用簇内向量的均值表示:
S34、训练SVM分类器,对于混合类簇Cm,训练对应的SVM分类器Sm用于预测数据类别;
S4、对模型进行预测,在模型预测阶段,将输入的数据分别输入各基学习器,在基学习器中,数据被划分到最近的类簇C中,当C为只含一种类别数据的单一类簇,则基学习器输出的预测类别为C类簇数据的类别;当C为混合类别类簇,则基学习器输出的预测为SVM分类器的输出类别,最后根据投票原则,基学习器输出类别中占多数的类别为最终预测类别。
2.根据权利要求1所述恶意代码检测方法,其特征在于,TF-IDF具体为:
给定文本j中的一个词i,设ni,j为文本j中词i的数量,则该词的TF公式为:
设N为语料库中的文本总数,N(i)为包含词i的文本的数量,则该词的IDF公式为:
根据TF和IDF值,文本j中词i的TF-IDF计算公式为:
TF-IDFi,j=TFi,j*IDFi。
3.根据权利要求1所述恶意代码检测方法,其特征在于,步骤S11中,所述构建Doc2vec模型结构共分为三层:输入层、投影层、输出层,
输入层包括2k个词的词向量w(t-k),…,w(t-1),w(t+1),…,w(t+k)和1个文本向量w(d),其中k为给定的滑动窗口大小;
投影层将输入的2k+1个词向量做求和平均处理:
输出层对应一棵Huffman树,Huffman树的每个叶子节点对应一个词,词频高的词在Huffman树中的深度比词频低的词更小。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州大学,未经广州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911270920.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种汽车零部件烘干装置
- 下一篇:一种MIMO通信中天线选择方法及系统