[发明专利]基于半监督密度聚类的恶意代码家族同源性分析方法有效
申请号: | 201810744345.6 | 申请日: | 2018-07-09 |
公开(公告)号: | CN109190653B | 公开(公告)日: | 2020-06-05 |
发明(设计)人: | 方勇;刘亮;黄诚;荣俸萍;张与弛 | 申请(专利权)人: | 四川大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F21/56 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610065 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 监督 密度 恶意代码 家族 同源性 分析 方法 | ||
本发明依据绝大多数新增恶意代码属于已知的恶意代码家族这一特性,利用病毒库中已有样本的信息辅助恶意代码进行家族同源性分析以实现更准确的家族聚类,并在准确的家族聚类的基础上对同家族的恶意代码构建家族图以可视化的方式了解同一家族内恶意代码的变种之间的演化关系并预测变种的发展方向,为恶意代码的深度分析提供技术支撑。结合恶意代码本身的演化特点,提出了一种支持家族图构建的恶意代码同源性分析模型,通过实验证明该模型的有效性。提出了一种半监督密度聚类算法,通过实验证明该算法可以实现准确的家族聚类,并为未知家族的发现提供线索,提出了一种基于不对称相似度度量的家族演化图构建算法,对每个恶意家族构建演化图,可视化呈现同一家族内恶意样本间的演化关系。
技术领域
本发明运用半监督聚类技术来对恶意代码进行家族聚类,并使用不对称相似度计算方法构建家族演化图来可视化同一家族内变种间演化关系。通过研究当前聚类算法及遇到的问题,结合病毒库中的已知样本的信息,提出一种半监督密度聚类算法S-DBSCAN,属于数据挖掘技术。
背景技术
静态自动化分析技术难于对抗、混淆、加密和加壳等静态自动化分析技术,而动态自动化分析技术效率较低,现有框架多使用虚拟机作为分析环境,难以对抗动态分析环境检测及技术,无法得到样本可靠、准确的动态行为信息。
传统的序列挖掘算法GSP只能挖掘出频繁序列模式而不能达到挖掘某一类型样本的典型序列模式和进行恶意代码家族同源性分析的目的,不能直接应用于恶意代码家族同源性分析问题中。
传统的用于恶意代码家族聚类的聚类算法有密度聚类算法和层次聚类算法,该算法的缺点是在恶意家族较为相似的情况下,不能实现准确的家族划分,家族聚类的误差就很大,不适用于恶意家族总数巨大、分类细化的真实场景。
现有的家族演化树构建方法大多来自生物信息学上的系统发生树构建算法,对于基于代码复用的恶意代码同源性分析问题,系统发生树只能发现相似的恶意代码,并不能准确的揭示恶意代码之间的进化方向和演化关系。
发明内容
本发明为了解决现有同源性分析方法不能准确实现恶意代码的家族划分和可视化同家族恶意代码变种间的演化关系等弱点,通过改进DBSCAN算法,结合半监督聚类技术利用病毒库中已知样本家族信息来实现对恶意代码的准确家族聚类,并在此基础上提出一种不对称相似度计算方法以构建家族演化图,进而提供一种可视化家族内恶意代码变种间演化关系的方法。
按照本发明提供的方法,所述恶意代码家族同源性分析方法包括:典型API调用序列模式的提取,恶意代码家族聚类,家族演化树构建。具体的包括以下几个步骤。
a)数据提取,动态API调用序列提取模块负责样本动态API调用序列数据的采集、编号和存储。
b)序列模式挖掘,典型API序列模式挖掘模块负责从已知样本的API调用序列数据和其家族标签信息中挖掘出能代表某一恶意家族关键恶意行为的典型API调用序列模式,并保存。
c)文件表征,文件表征模块使用挖掘出的典型序列模式作为特征表征样本,得到布尔向量形式的样本数据集。
d)家族聚类,半监督聚类模块社区演变利用已知恶意样本的家族类别信息辅助样本集进行半监督聚类。
f)家族演化图构建,家族演化图构建模块对同家族内不同变种间的演化关系进行判定,构建家族演化图。
所属基于半监督密度聚类的恶意代码家族同源性分析技术研究中,表示恶意代码的常用特征主要包括。
a)代码特征:主要包括节的个数、节名、节属性、导入库个数和名称、导入函数个数和名称等PE头部信息和是否加壳、加壳算法及其版本信息等壳相关信息以及数据流图、控制流图、函数调用图等结构特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810744345.6/2.html,转载请声明来源钻瓜专利网。