[发明专利]一种模型训练方法、文件识别方法及电子装置在审
申请号: | 202011410990.8 | 申请日: | 2020-12-03 |
公开(公告)号: | CN112507331A | 公开(公告)日: | 2021-03-16 |
发明(设计)人: | 鲁玮克 | 申请(专利权)人: | 北京微步在线科技有限公司 |
主分类号: | G06F21/53 | 分类号: | G06F21/53;G06N3/00 |
代理公司: | 北京金信知识产权代理有限公司 11225 | 代理人: | 喻嵘 |
地址: | 100086 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 模型 训练 方法 文件 识别 电子 装置 | ||
本发明提供一种模型训练方法、文件识别方法及电子装置,所述模型训练方法包括:确定负样本及正样本,所述负样本由多个恶意文件形成,所述正样本由多个非恶意文件形成;确定所述负样本及正样本在分别经由沙箱运行过程中生成的动态行为签名,所述动态行为签名包括所述负样本或正样本被签名的动态行为信息;至少基于部分所述动态行为签名记载的信息以及所述负样本和负样本的原始数据确定训练数据;建立目标模型架构;基于所述训练数据训练所述目标模型架构,以形成用于识别文件为恶意文件或非恶意文件的文件识别模型。基于本发明提供的模型训练方法使得训练出的模型能够自动进行文件识别,判断文件是否为恶意文件,提升了识别效率及准确率。
技术领域
本发明实施例涉及计算机安全领域,特别涉及一种模型训练方法、文件识别方法及电子装置。
背景技术
沙箱是一种安全机制,为运行中的程序提供隔离环境,通常是作为一些来源不可信、具破坏力或无法判定程序意图的程序提供实验之用。
当待识别的文件被投递到沙箱后,文件将会被沙箱自动执行,与此同时,沙箱将记录及显示文件在虚拟环境中执行行为的日志,于是分析人员能够对上述行为日志进行分析,最终识别该文件是否属于恶意文件。使用机器学习模型,能够模拟分析人员对行为日志的分析过程,进而代替人工,实现恶意文件的自动识别。
恶意文件和非恶意文件在沙箱中的行为存在较为明显的区别:恶意文件一般会在系统执行多种敏感行为,如通过注册表、系统服务、计划任务等建立自启动项,实现驻留,又如通过注入系统其他进程的方式躲避检测等;而非恶意文件一般不存在类似的敏感行为。
当前,基于沙箱行为识别恶意文件多采用规则过滤的方式,如对指定的行为进行签名,并根据文件触发签名的次数或级别编写相关的规则,若符合该规则,则直接判定文件为恶意,该方式在国内外已有广泛应用。其过程包括:沙箱分析-行为签名收集-规则过滤-样本判定。
但是当前对于网络签名,大部分采用触发规则个数或等级来设置相关阈值,此方法虽然具有一定的通用性,但存在以下两个缺陷:
(1)相关阈值设置过高时,导致部分木马及恶意木马无法被检测,即漏报。
(2)相关阈值设置过低时,导致大批非恶意文件被识别为恶意文件,即误报。
(3)动态行为签名类型非常丰富,理论上难以通过人工编写出较为完备的规则,导致在迭代多轮的情况下,仍然只能覆盖一部分甚至一小部分实际场景,产出的规则可用性不强。
发明内容
为了解决上述技术问题,本发明实施例提供了一种模型训练方法,包括:
确定负样本及正样本,所述负样本由多个恶意文件形成,所述正样本由多个非恶意文件形成;
确定所述负样本及正样本在分别经由沙箱运行过程中生成的动态行为签名,所述动态行为签名包括所述负样本或正样本被签名的动态行为信息;
至少基于部分所述动态行为签名记载的信息以及所述负样本和负样本的原始数据确定训练数据;
建立目标模型架构;
基于所述训练数据训练所述目标模型架构,以形成用于识别文件为恶意文件或非恶意文件的文件识别模型。
作为优选,所述确定负样本及正样本,包括:
基于包含经沙箱进行分析处理并确定了文件识别结果的历史数据中获得第一数量的恶意文件以及第二数量的非恶意文件;
标注所述恶意文件为所述负样本;
标注所述非恶意文件为正样本。
作为优选,所述确定所述负样本及正样本在分别经由沙箱运行过程中生成的动态行为签名,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京微步在线科技有限公司,未经北京微步在线科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011410990.8/2.html,转载请声明来源钻瓜专利网。