[发明专利]一种恶意文件识别方法、装置、设备及存储介质在审
申请号: | 201910570372.0 | 申请日: | 2019-06-27 |
公开(公告)号: | CN112149121A | 公开(公告)日: | 2020-12-29 |
发明(设计)人: | 章明星;刘彦南 | 申请(专利权)人: | 深信服科技股份有限公司 |
主分类号: | G06F21/56 | 分类号: | G06F21/56;G06F16/35;G06K9/62 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 王仲凯 |
地址: | 518055 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 恶意 文件 识别 方法 装置 设备 存储 介质 | ||
1.一种恶意文件识别方法,其特征在于,包括:
预先将所有的历史文件样本划分到多个样本类中;
基于每个样本类中的历史文件样本,训练获得每个样本类对应的恶意文件识别模型;
在有新文件样本时,确定所述新文件样本的所属样本类;
基于所述新文件样本和所述新文件样本所属样本类中的历史文件样本,更新所述新文件样本所属样本类对应的恶意文件识别模型;
在有待识别文件时,使用相应的恶意文件识别模型对所述待识别文件进行识别。
2.根据权利要求1所述的方法,其特征在于,所述预先将所有的历史文件样本划分到多个样本类中,包括:
获取所有的历史文件样本;
提取每个历史文件样本的原始特征;
基于每个历史文件样本的原始特征,对所有的历史文件样本进行聚类处理,获得多个样本类。
3.根据权利要求2所述的方法,其特征在于,所述基于每个历史文件样本的原始特征,对所有的历史文件样本进行聚类处理,获得多个样本类,包括:
基于每个历史文件样本的原始特征,对所有的历史文件样本进行至少两次聚类处理,获得多个样本类。
4.根据权利要求3所述的方法,其特征在于,所述至少两次聚类处理中包括至少使用一次基于密度的聚类算法的聚类处理。
5.根据权利要求4所述的方法,其特征在于,所述基于每个历史文件样本的原始特征,对所有的历史文件样本进行至少两次聚类处理,获得多个样本类,包括:
基于每个历史文件样本的原始特征,使用K均值聚类算法对所有的历史文件样本进行预聚类处理,获得多个样本大类;
针对每个样本大类,使用基于密度的聚类算法对该样本大类中的历史文件样本进行聚类处理,获得多个样本类。
6.根据权利要求2至5之中任一项所述的方法,其特征在于,所述原始特征包括二进制特征、字符串特征、汇编代码特征、动态特征中的至少一种特征。
7.根据权利要求1所述的方法,其特征在于,所述基于所述新文件样本和所述新文件样本所属样本类中的历史文件样本,更新所述新文件样本所属样本类对应的恶意文件识别模型,包括:
基于所述新文件样本和所述新文件样本所属样本类中的历史文件样本,确定训练样本集;
使用所述训练样本集更新所述新文件样本所属样本类对应的恶意文件识别模型。
8.根据权利要求7所述的方法,其特征在于,基于所述新文件样本和所述新文件样本所属样本类中的历史文件样本,确定训练样本集,包括:
在所述新文件样本和所述新文件样本所属样本类中的历史文件样本中:
选取符合预设必选条件的文件样本,并按照预设抽取规则抽取未被选取的其他文件样本,生成训练样本集;
所述预设抽取规则为:文件样本获得时刻越晚,被抽取到的概率越大,文件样本获得时刻越早,被抽取到的概率越小。
9.根据权利要求1所述的方法,其特征在于,所述确定所述新文件样本的所属样本类,包括:
通过聚类算法计算所述新文件样本与每个样本类中心点的距离;
根据所述距离,确定所述新文件样本的所属样本类。
10.根据权利要求1至5、7至9之中任一项所述的方法,其特征在于,所述在有待识别文件时,使用相应的恶意文件识别模型对所述待识别文件进行识别,包括:
在有待识别文件时,确定所述待识别文件的所属样本类;
使用所述待识别文件所属样本类对应的恶意文件识别模型对所述待识别文件进行识别;
根据识别结果,确定所述待识别文件是否为恶意文件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深信服科技股份有限公司,未经深信服科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910570372.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于确定设备的相关性的方法及装置
- 下一篇:自移动机器人及其辅助轮