[发明专利]一种恶意代码检测方法及系统有效

专利信息
申请号: 201911270920.4 申请日: 2019-12-12
公开(公告)号: CN111143842B 公开(公告)日: 2022-07-01
发明(设计)人: 范美华;李树栋;吴晓波;韩伟红;杨航锋;付潇鹏;方滨兴;田志宏;殷丽华;顾钊铨;仇晶;李默涵;唐可可 申请(专利权)人: 广州大学
主分类号: G06F21/56 分类号: G06F21/56;G06K9/62
代理公司: 广州市华学知识产权代理有限公司 44245 代理人: 李斌
地址: 510006 广东省*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 恶意代码 检测 方法 系统
【权利要求书】:

1.一种恶意代码检测方法,其特征在于,包括下述步骤:

S1、将每个恶意代码运行过程中的WindowsAPI动作序列视作一个具有上下文关系的文本,分别使用TF-IDF和Doc2vec进行特征抽取;TF-IDF是用来评估特定词语在语料库中重要程度,其中TF计算词语出现的频率,IDF用以衡量词语对于文本类型的区分度;TF-IDF算法流程具体为:

S11、计算每个WindowsAPI函数在动作序列中出现的频率TF以及包含该WindowsAPI的动作序列所占总数据集的比例IDF;

S12、根据TF和IDF计算WindowsAPI函数在动作序列中的TF-IDF,将动作序列向量化;

Doc2vec是Word2vec的扩展,通过训练神经网络学习文本的特定长度向量表示,文本向量不仅包含了上下文信息,还包含了文本整体的语义信息;Doc2vec算法流程具体为:

S13、构建Doc2vec模型结构,并设置模型参数,

S14、训练Doc2vec模型,利用随机梯度下降和反向传播从已知的训练数据中学习词向量、模型参数以及文本向量;

S15、推断过程,按照设置的参数和步骤更新文本矩阵D,学习新文本的向量表示;

S2、在分别获得TF-IDF和Doc2vec特征矩阵后,将TF-IDF和Doc2vec抽取到的特征进行拼接,降维后获得恶意代码的特征矩阵;

S3、构造基于聚类的集成分类改进模型,该集成分类改进模型基于集成学习的思想,分别采用多个基学习器对数据集进行分类,并在最后采用投票的方式获得最终分类结果,所述集成分类改进模型训练,在每个基学习器中采用基于聚类的分块分类方法进行训练,具体流程如下:

S31、用k-means算法将数据划分为k个数据子集,K个类簇中有一部分类簇只含有一种类别Ci的数据,将这种类簇视为单一类别类簇,标记类簇类别为Ci;

S32、对噪音点进行过滤,过滤掉类簇中其他数据类别不同且数量在簇中占比极小的点;

S33、将过滤后仍然含有多个类别数据的类簇合并为一个大的混合类簇,数据被划分为m个类簇,其中{C1,C2,…,Cm-1}为单一类簇,Cm为混合类簇,类簇向量用簇内向量的均值表示:

S34、训练SVM分类器,对于混合类簇Cm,训练对应的SVM分类器Sm用于预测数据类别;

S4、对模型进行预测,在模型预测阶段,将输入的数据分别输入各基学习器,在基学习器中,数据被划分到最近的类簇C中,当C为只含一种类别数据的单一类簇,则基学习器输出的预测类别为C类簇数据的类别;当C为混合类别类簇,则基学习器输出的预测为SVM分类器的输出类别,最后根据投票原则,基学习器输出类别中占多数的类别为最终预测类别。

2.根据权利要求1所述恶意代码检测方法,其特征在于,TF-IDF具体为:

给定文本j中的一个词i,设ni,j为文本j中词i的数量,则该词的TF公式为:

设N为语料库中的文本总数,N(i)为包含词i的文本的数量,则该词的IDF公式为:

根据TF和IDF值,文本j中词i的TF-IDF计算公式为:

TF-IDFi,j=TFi,j*IDFi

3.根据权利要求1所述恶意代码检测方法,其特征在于,步骤S11中,所述构建Doc2vec模型结构共分为三层:输入层、投影层、输出层,

输入层包括2k个词的词向量w(t-k),…,w(t-1),w(t+1),…,w(t+k)和1个文本向量w(d),其中k为给定的滑动窗口大小;

投影层将输入的2k+1个词向量做求和平均处理:

输出层对应一棵Huffman树,Huffman树的每个叶子节点对应一个词,词频高的词在Huffman树中的深度比词频低的词更小。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州大学,未经广州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911270920.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top