[发明专利]一种基于API全局词向量和分层循环神经网络的恶意代码检测方法在审
申请号: | 201910123187.7 | 申请日: | 2019-02-19 |
公开(公告)号: | CN109886021A | 公开(公告)日: | 2019-06-14 |
发明(设计)人: | 高雅琪;詹静;樊旭东;范雪;刘一帆 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F21/56 | 分类号: | G06F21/56;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 恶意代码检测 恶意代码 分层循环 神经网络 网络模型 词向量 预测 样本 未知恶意代码 循环神经网络 时序 独特优势 时序信息 时序序列 序列组合 训练阶段 样本训练 远程攻击 正确率 检测 触发 全局 自动化 | ||
本发明公开了一种基于API全局词向量和分层循环神经网络的恶意代码检测方法,该恶意代码检测方法包括两个阶段:(S1)已知样本的训练阶段,本阶段的目的主要为得到使用已知样本训练之后的网络模型。(S2)未知样本的预测阶段,预测阶段的目的主要为使用(S1)中的网络模型预测未知代码是否为恶意代码。由于恶意代码进行远程攻击时会触发一系列系统API,通常有较为频繁出现的序列组合。循环神经网络在处理时序信息方面有独特优势,将此优势与API时序结合,提出一种基于API时序序列的恶意代码检测方法,实现自动化的恶意代码检测,提高检测的正确率和检测速率,并能识别更多的未知恶意代码。
技术领域
本发明涉及恶意代码检测领域,尤其涉及一种基于时序序列的恶意代码检测方法,属于计算机技术领域。
背景技术
随着计算机和网络的飞速发展,带给人们诸多便利的同时也带给人们一定的威胁。网络黑客针对各种网络漏洞发起各种恶意攻击。恶意代码的传播不仅会干扰网络以及软件的正常使用,破坏重要数据,给个人和企业造成重大损失。
目前比较成熟的恶意代码检测主要通过匹配特征库中的特征检测恶意代码(如基于签名的检测方法)。这种方法对数据库中存在的特征检测准确率很高,但不能识别混淆后和未知的恶意代码。基于行为的检测方法监视的是程序活动行为,通过执行相关代码捕获行为信息,不受混淆技术的影响,并在一定程度上能识别未知恶意代码。然而,上述两种方法都需要相关领域专家的大量经验知识,无法实现自动化检测。
深度学习是近几年来人工智能领域发展最快的技术之一,在自然语言处理等具有时序信息相关领域中(如,命名实体识别,中文文本情感分析,文章分类,词性标注,机器翻译,对话系统等,循环神经网络等),取得了巨大进展。恶意代码检测过程中会触发一系列含有时序信息API行为序列,循环神经网络可以通过学习其内在的行为时序信息检测恶意代码,因此在未知恶意代码检测方面具有较好应用前景。
发明内容
本发明利用深度学习思想,采用动态行为分析技术,提出一种基于API时序序列的恶意代码检测方法。由于恶意代码进行远程攻击时会触发一系列系统API,通常有较为频繁出现的序列组合。循环神经网络在处理时序信息方面有独特优势,将此优势与API时序结合,提出一种基于API时序序列的恶意代码检测方法,实现自动化的恶意代码检测,提高检测的正确率和检测速率,并能识别更多的未知恶意代码。
本发明采用的技术方案为一种基于全局词向量及分层循环神经网络(Slice-LongShort-Term Memory Networks,S-LSTM)的恶意代码检测方法,该恶意代码检测方法包括两个阶段:S1已知样本的训练阶段,本阶段的目的主要为得到使用已知样本训练之后的网络模型。(S2)未知样本的预测阶段,预测阶段的目的主要为使用(S1)中的网络模型预测未知代码是否为恶意代码。
其中(S1)已知样本的训练阶段一共包含三个模块:(S1-1)特征表示模块,(S1-2)全局词向量生成模块,(S1-3)S-LSTM网络训练模块。
(S2)未知样本的预测阶段一共包含两个模块:(S2-1)特征表示模块,此模块运行过程与(S1-1)相同,(S2-2)S-LSTM网络预测模块。
对上述涉及到的模块做如下介绍:
首先,对(S1)已知样本的训练阶段涉及到的模块做如下介绍:
(S1-1)特征表示模块包括如下步骤:
步骤1,收集样本。收集恶意代码、正常代码以及代码标注组成样本训练集。
步骤2,获取样本API序列。在虚拟机中执行步骤1收集到的代码,使用API Hook技术捕获代码执行过程中调用的API,并按照调用的先后顺序组成API序列。
(S1-2)全局词向量生成模块包括如下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910123187.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于深度神经网络的软件漏洞自动分类方法
- 下一篇:CMS类型识别方法及装置