[发明专利]一种基于群智能算法和cGAN的恶意代码数据不均衡处理方法在审
申请号: | 202110182166.X | 申请日: | 2021-02-09 |
公开(公告)号: | CN112800426A | 公开(公告)日: | 2021-05-14 |
发明(设计)人: | 梁军淼;宁振虎;曹东芝;公备 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F21/56 | 分类号: | G06F21/56;G06K9/62 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 智能 算法 cgan 恶意代码 数据 均衡 处理 方法 | ||
本发明公开了一种基于群智能算法和cGAN的恶意代码数据不均衡处理方法,构建恶意代码生成模型。采用群智能算法计算恶意代码的可接受最佳初始样本比例。生成各家族恶意代码,构建相对均衡的恶意代码数据集。本发明利用群智能算法获得各恶意代码家族的可接受最佳样本比例,同时引入cGAN对恶意代码不同家族的数据分布进行学习并进行样本生成,最后对不平衡数据集进行处理,构建各类样本相对均衡的恶意代码数据集,使不同种类的恶意代码在选取时达到一个理想的比例,使正负样本在训练过程中具有相同的地位,更有效的解决了数据不均衡的问题。
技术领域
本发明属于信息安全领域,尤其涉及一种基于群智能算法和cGAN的恶意代码数据不均衡处理方法,属于恶意代码分类问题中的数据均衡策略。
背景技术
随着信息技术的快速发展,互联网已成为我们日常生活的重要组成部分,其为我们的生活、学习、工作带来诸多利处,但同时隐藏着如木马病毒、钓鱼网站和恶意软件等众多安全问题,其中恶意代码是主要安全威胁之一。在经济利益的驱使下,新的恶意软件样本数量呈爆炸式增长,反恶意软件供应商每年面临数百万个潜在的恶意代码样本,为了继续对抗恶意代码样本的增加,研究需要依靠大量的、高质量的样本来构建高效的恶意软件检测模型。
在分类应用中,数据不均衡对分类模型的训练有显著不利影响,既表现在训练模型的收敛性,又表现在测试阶段模型的泛化性。高质量的数据是机器学习和深度学习的关键所在,数据的稀缺性可以阻碍一个模型的发展,使用高质量的数据训练后的模型往往会更健壮(防止过拟合),甚至可以因为数据集的原因使训练变得简单和快速。而在恶意代码的检测问题中,各恶意代码家族间的数据严重失衡,导致训练时易发生过拟合问题,训练出的模型分类效果差。目前,关于解决数据不均衡问题的研究策略大致可以分为三个方面。
1)从数据层面进行研究
该类方法主要通过重采样,常用的有上采样、下采样;或通过数据增强方法,对数据量小的数据进行数据增强,效果较好的有生成对抗网络(GAN,Generative AdversarialNetworks),以此来改变训练集的分布使其分布趋于平衡。
2)基于算法层面的研究
通过优化算法获取最优数据集采样权重,效果较好的是群智能优化算法;或者改进分类算法,降低偏向负类的误差,提高对正类的识别率,其中最流行的是代价敏感分类算法。
3)数据与算法层面相结合
此类方法主要是将上面两种策略(基于数据层面的研究和基于算法层面的研究)进行整合,以提取其各自优点,同时减少各自弱点,以获取分布平衡的数据集,来提高模型的分类效果。
发明内容
为了解决在恶意代码检测问题中,样本数据集不均衡导致训练的模型性能差的问题,本发明提出了一种新型解决数据不均衡的方法,首先通过构建的条件式生成对抗网络(cGAN,Conditional Generative Adversarial Networks)对各家族样本数据进行数据增强,再根据群智能算法善于解决优化组合问题的特点,选取典型群智能算法微粒群算法(Particle Swarm Optimization,PSO)来计算恶意代码各个家族的样本比例,依据比例进行数据增强;最后通过原始数据集和依据比例生成的数据集来构建样本数据相对均衡的恶意代码数据集。
本发明采用的技术方案为一种基于群智能算法和cGAN的恶意代码数据不均衡处理方法,包括以下步骤:
步骤1,构建恶意代码生成模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110182166.X/2.html,转载请声明来源钻瓜专利网。