[发明专利]二进制文件的分类方法、计算设备及存储介质在审
申请号: | 202210022273.0 | 申请日: | 2022-01-10 |
公开(公告)号: | CN114492366A | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 杨晋 | 申请(专利权)人: | 阿里云计算有限公司 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06K9/62;G06N3/04;G06N3/08;G06F21/56 |
代理公司: | 北京太合九思知识产权代理有限公司 11610 | 代理人: | 步文娟;张爱 |
地址: | 310012 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 二进制文件 分类 方法 计算 设备 存储 介质 | ||
1.一种二进制文件的分类方法,其特征在于,包括:
获取待分类二进制文件,获取所述待分类二进制文件中对应的可变化代码;
确定所述可变化代码的代码特征,作为待分类二进制文件的文件特征;
将所述待分类二进制文件的文件特征与预置的多个二进制文件类簇中的质心二进制文件的文件特征进行对比,确定所述待分类二进制文件所属类簇,从而确定待分类二进制文件的类簇,所述质心二进制文件代表对应类簇的类簇特征。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述待分类二进制文件所属于预置的多个二进制文件类簇中对应类簇,根据所述待分类二进制文件更新对应类簇中的二进制文件;
确定更新后对应类簇中的二进制文件与该类簇中其它二进制文件的相似度,根据所述相似度确定更新后类簇中的新的质心二进制文件。
3.根据权利要求2所述的方法,其特征在于,所述根据所述相似度确定更新后类簇中的新的质心二进制文件,包括:
确定更新后对应类簇中的二进制文件与该类簇中其它二进制文件的相似度之和,根据相似度之和,确定新的质心二进制文件。
4.根据权利要求1所述的方法,其特征在于,所述获取所述待分类二进制文件中对应的可变化代码,包括:
识别待分类二进制文件中的函数,确定所述函数的签名,根据所述函数的签名确定函数的来源库;
根据确定的来源库,从所述待分类二进制文件中剔除掉来源库对应的代码,得到对应的可变化代码。
5.根据权利要求1所述的方法,其特征在于,所述确定所述可变化代码的代码特征,包括:
去除二进制文件中代码段中的操作数;
根据代码段中其它信息确定可变化代码对应函数的函数特征,并根据可变化代码中函数的地址顺序,合并函数特征,将得到的合并函数特征作为可变化代码的代码特征。
6.根据权利要求1所述的方法,其特征在于,所述将所述待分类二进制文件的文件特征与预置的多个二进制文件类簇中的质心二进制文件的文件特征进行对比,确定所述待分类二进制文件所属类簇,包括:
对比待分类二进制文件的文件特征对应的文件特征值与质心二进制文件的文件特征对应的文件特征值,确定文件特征值的相似度;
根据文件特征值的相似度,确定待分类二进制文件所属类簇。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
根据模糊哈希以及文件特征,确定文件特征值。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述待分类二进制文件不属于预置的多个二进制文件类簇,则确定所述待分类二进制文件与其它待分类二进制文件的相似度;
当文件的相似度大于或等于阈值,则将对应的多个待分类二进制文件进行聚类,生成对应二进制文件类簇;
确定生成的类簇的质心二进制文件。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
当文件的相似度小于阈值,则将待分类二进制文件直接生成对应二进制文件的类簇。
10.根据权利要求2所述的方法,其特征在于,所述方法还包括:
根据更新后的恶意类簇,确定恶意类簇中的恶意代码检测信息;
根据恶意代码检测信息,生成对应的恶意代码特征库,以进行恶意代码的检测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里云计算有限公司,未经阿里云计算有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210022273.0/1.html,转载请声明来源钻瓜专利网。