[发明专利]一种恶意代码家族分类方法在审
申请号: | 201910929429.1 | 申请日: | 2019-09-27 |
公开(公告)号: | CN110659495A | 公开(公告)日: | 2020-01-07 |
发明(设计)人: | 王凤英;高明哲;李彩虹;贾立鹏;姜倩玉 | 申请(专利权)人: | 山东理工大学 |
主分类号: | G06F21/56 | 分类号: | G06F21/56;G06K9/62;G06F16/951 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 255086 山东省淄博*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 恶意代码 家族分类 抓取 算法 多个网站 恶意代码样本 归一化预处理 卷积神经网络 图像 二进制码 汇编文件 全局特征 自动更新 爬虫 多线程 特征库 再利用 调用 标准化 检测 优化 | ||
本发明公开了一种恶意代码家族分类检测方法,包括:从多个网站通过多线程爬虫算法抓取恶意代码样本,通过B2M算法,由二进制码汇编文件生成恶意代码图像,对图像进行标准化、归一化预处理后,再利用Gist算法,调用Matlab接口提取全局特征,采用优化卷积神经网络模型进行训练,得到恶意代码家族分类。本发明所述技术方案能够自动从多个网站抓取恶意代码,自动更新恶意代码家族分类特征库,抓取恶意代码效率高,恶意代码家族分类的准确性高。
技术领域
本发明涉及网络与信息安全技术领域,尤其涉及一种恶意代码家族分类方法。
背景技术
恶意代码(Malicious Code,也称作Malware/恶意软件),指为达到恶意目的专门设计的程序、代码或指令,指一切意在破坏计算机、移动终端或网络系统可靠性、可用性、安全性或者消耗系统资源的恶意程序。恶意代码主要的存在形式包括:恶意数据文档、恶意网页、内存代码、可执行程序和动态链接库等。机器学习作为人工智能的一个重要分支已渗透到很多领域,深度学习是一种实现机器学习的重要技术,深度学习是利用深度神经网络来解决特征表达的一种学习过程。卷积神经网络CNN(Convolutional Neural Network)是深度学习中经典的模型之一,可应用于图像处理和图像识别等领域,在图像分类上展现出了极好的分类特性及良好的应用前景。
在过去十几年时间里,针对恶意代码家族的自动标注方法已经取得了一定成果,研究人员开发出了多种恶意代码家族自动标注系统。L.Nataraj等人(Malware image:visualization and automatic classification[A].Proceedings of VizSes[C],1011)首次将二进制文件以可见灰度图的形式表示,利用图像的纹理特征对恶意代码进行聚类。何源浩等人(一种基于深度学习的恶意代码样本分类方法及系统,1016,10,专利)对恶意代码样本进行反汇编得到汇编代码;然后基于十六进制码与图像灰度值的对应关系,将汇编代码转化为图像样本数据;将所述图像样本数据输入预先训练得到的卷积神经网络,得到恶意代码样本分类。何帅等人(基于恶意代码图像指纹的恶意代码家族标注方法,通信技术,1017,3)该方法将恶意代码反汇编文件绘制成图像,提取图像的全局指纹GIST特征描述符和局部指纹SIFT特征点,通过BoW模型对局部特征进行优化,最终获取图像指纹,并采用随机森林的方法实现恶意代码家族标注。通过对现有文献进行研究,发现每个文献存在如下一种或几种缺陷:(1)直接从恶意代码样本库获取恶意代码样本,对获取恶意代码样本进行分类,后续不能自动丰富更新恶意代码库,不能实时更新恶意代码家族分类特征库;(2)没有利用多线程爬虫算法通过多个提供恶意代码的网站抓取恶意代码样本,导致获取恶意代码样本的范围小、效率低;(3)没有利用卷积神经网络进行深度学习,或者利用了卷积神经网络进行深度学习但是学习的层数及大小不太合适恶意代码分类,导致恶意代码分类方法效率较低、准确率不高。
发明内容
本发明的目的是提供一种能克服上述缺陷、具有对恶意代码进行分类功能的一种恶意代码家族分类方法。其技术方案为采用以下步骤:
1)利用多线程爬虫算法,从网站抓取恶意代码样本,放入恶意代码样本库,多线程爬虫算法采用并发线程池编程模板threading中的Thread类,再重写run方法,线程自动运行run方法中的代码实现封装,采用threading.Condition实现线程高效上锁和解锁操作;
2)对步骤1)抓取的每一个恶意代码样本进行反汇编生成二进制码文件,放入扩展名为bytes的文件中;
3)通过B2M算法,将每一个二进制码文件生成恶意代码图像,并进行标准化、归一化预处理,放入恶意代码图像库;
4)批量化读取恶意代码图像库中的所有恶意代码图像,再利用Gist算法,调用Matlab软件接口提取恶意代码Gist图像全局特征,放入Gist全局特征库;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东理工大学,未经山东理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910929429.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可扩展的智能合约漏洞检测方法
- 下一篇:一种智能手机管控设备及方法