[发明专利]基于多维度特征融合和模型集成的恶意软件家族分类方法有效
申请号: | 202210035910.8 | 申请日: | 2022-01-11 |
公开(公告)号: | CN114386511B | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 李树栋;厉源;吴晓波;李正阳;韩伟红;张海鹏;肖林鹤;许娜;赵传彧;方滨兴;田志宏;顾钊铨;殷丽华 | 申请(专利权)人: | 广州大学 |
主分类号: | G06F18/241 | 分类号: | G06F18/241;G06F18/214;G06N3/0464;G06N3/08 |
代理公司: | 北京高航知识产权代理有限公司 11530 | 代理人: | 刘艳玲 |
地址: | 510006 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多维 特征 融合 模型 集成 恶意 软件 家族 分类 方法 | ||
本发明提供基于多维度特征融合和模型集成的恶意软件家族分类方法,包括S1获取恶意软件PE文件,根据获取的PE文件提取多个维度的恶意软件特征;其中恶意软件特征包括:Ember特征、TF‑IDF特征和Asm2Vec;S2根据提取的恶意软件特征进行特征融合和特征选择处理,得到恶意软件家族分类特征集;S3以XGBoost作为基础模型,根据得到的恶意软件家族分类特征集中的特征分别单独训练基础模型,并根据训练好的基础模型对训练集样本进行预测,根据得到预测结果计算各特征在对应各家族上的权重值;并采用加权软投票的方式来计算恶意软件家族分类预测结果。本发明有助于提高恶意软件家族分类的性能和泛化能力。
技术领域
本发明涉及恶意软件家族分类技术领域,特别是基于多维度特征融合和模型集成的恶意软件家族分类方法。
背景技术
近年来,恶意软件的数量大幅增加,勒索软件、木马、病毒、恶意挖矿程序等多种形式的恶意软件不断涌现,攻击者利用这些恶意软件持续发动大规模的网络攻击,对相关企业、政府机构和个人都构成了严重的安全威胁。为了更好地揭示恶意软件的属性信息和行为特征,针对恶意软件的检测识别和家族分类任务成为了网络安全领域的研究热点。然而,一方面,传统的恶意软件分类方法仍然采用启发式和基于特征码的技术手段,这些方法已经难以应对恶意软件的快速发展和扩散。另一方面,恶意软件编写者为了逃避传统安全策略的检测,在恶意软件组件中引入了多态性。虽然属于同一恶意软件家族的恶意文件具有相同形式的恶意行为,但由于编写者使用了各种策略不断修改和/或混淆,原本隶属同一家族的文件看起来像许多不同的文件,给检测识别的准确性带来了高度挑战。与此同时,人工智能技术逐渐兴起并得到广泛应用,因其本身适用于自动化处理和海量数据分析等任务,故可以为恶意软件自动化识别和分类提供帮助。
纵观恶意软件家族分类领域的发展动态,针对相关技术的研究可以分为两个阶段。早期,传统的恶意软件分类方法采用启发式和基于特征码的技术手段,这一方法最初能够具备较高的识别准确率,但后来一方面难以应对恶意软件的快速发展和扩散趋势,另一方面也无法对抗恶意软件编写者采用的检测逃避技术。近年来,国内外逐渐开始关注机器学习、深度学习、神经网络等人工智能技术在这一工作中的应用,旨在提升海量恶意软件分析的高效性。然而,现有技术往往只关注恶意软件的某一种特征,或者倾向于构建单一的分类模型,仅仅依靠这样的自动化策略虽能在理想情况下取得较好的分类效果,但始终无法解决真实环境中恶意软件家族训练样本分布不均匀带来的负面影响,使得模型退化严重。
发明内容
针对上述问题,本发明旨在提供基于多维度特征融合和模型集成的恶意软件家族分类方法。
本发明的目的采用以下技术方案来实现:
本发明提出基于多维度特征融合和模型集成的恶意软件家族分类方法,包括:
S1获取恶意软件PE文件,根据获取的PE文件提取多个维度的恶意软件特征;其中恶意软件特征包括:Ember特征、TF-IDF特征和Asm2Vec;
S2根据提取的恶意软件特征进行特征融合和特征选择处理,得到恶意软件家族分类特征集;
S3以XGBoost作为基础模型,根据得到的恶意软件家族分类特征集中的特征分别单独训练基础模型,并根据训练好的基础模型对训练集样本进行预测,根据得到预测结果计算各特征在对应各家族上的权重值;并采用加权软投票的方式来计算恶意软件家族分类预测结果。
一种实施方式中,步骤S1包括:
根据获取的PE文件提取Ember特征,具体包括:
使用Ember提供的特征提取方法提取出PE文件的字节直方图、字节熵直方图和字符串信息特征作为Ember基础特征;
根据获取的PE文件进行反汇编处理得到汇编文件,从汇编文件中提取节区、导入表信息和导出表信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州大学,未经广州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210035910.8/2.html,转载请声明来源钻瓜专利网。