[发明专利]基于图卷积网络和主题模型的恶意代码分类有效

申请号：	201910587216.5	申请日：	2019-07-02
公开（公告）号：	CN112182568B	公开（公告）日：	2022-09-27
发明（设计）人：	张磊;刘亮;刘凯;曾跃天	申请（专利权）人：	四川大学
主分类号：	G06F21/56	分类号：	G06F21/56;G06N3/04
代理公司：	暂无信息	代理人：	暂无信息
地址：	610065 四川***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于图卷网络主题模型恶意代码分类
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于图卷积网络和主题模型的恶意代码分类方法，其特征在于包括以下步骤：

步骤一：提取恶意代码的函数调用图；

提取所述恶意代码的函数调用图的具体步骤为：提取过程中去除孤立函数，并将函数调用图存储为邻接矩阵，利用图卷积网络实现对函数调用图邻接矩阵的卷积，得到节点嵌入矩阵，通过注意力机制对节点嵌入加权求和得到函数调用图的图嵌入；

步骤二：提取恶意代码的函数指令分布；

步骤三：选取最佳的主题数量；

选取所述最佳的主题数量的具体步骤为：抽取一部分恶意代码的函数指令分布，将每一个函数的主题分布看作一个文本，使用one-hot进行编码，将主题数量的范围设置为1-24，训练主题模型，获取每个函数的主题分布，将每个恶意代码的所有函数主题分布输入到分类模型中，不使用函数调用图，观察不同主题数量对分类结果的影响，选择最佳的主题数量；

步骤四：将函数指令分布变换为函数主题分布；

将所述函数指令分布变换为所述函数主题分布的具体步骤为：使用最佳的主题数量，重新训练主题模型，调整迭代次数，将每个恶意代码的函数主题分布存储为json文件；

步骤五：将函数主题分布和函数调用图输入到分类模型中，训练模型；

步骤六：将训练好的模型用于判定对恶意代码的家族分类。

2.根据权利要求1所述的基于图卷积网络和主题模型的恶意代码分类方法，其特征在于步骤二中获取函数指令分布时，可以仅对操作码进行计数，节省了存储空间。

3.根据权利要求1所述的基于图卷积网络和主题模型的恶意代码分类方法，其特征在于步骤四中在选取最佳的主题数量时，采用了实验验证的方式。

4.根据权利要求1所述的基于图卷积网络和主题模型的恶意代码分类方法，其特征在于步骤三中将主题模型应用与恶意代码的分类。

5.根据权利要求1所述的基于图卷积网络和主题模型的恶意代码分类方法，其特征在于步骤五自适应最大池化获取恶意代码的主题分布，避免了数据大小不同对分类模型带来的不良影响。

6.根据权利要求1所述的基于图卷积网络和主题模型的恶意代码分类方法，其特征在于步骤五使用了图卷积网络和注意力机制获得函数调用图的图嵌入，降低了图形匹配复杂度，保证了图形匹配的准确率。

7.根据权利要求1所述的基于图卷积网络和主题模型的恶意代码分类方法，其特征在于步骤五使用已训练的模型对恶意代码进行分类，具有很快的分类速度。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载