[发明专利]一种基于熵信息分布的恶意文档检测方法有效
申请号: | 201810409421.8 | 申请日: | 2018-06-15 |
公开(公告)号: | CN108710797B | 公开(公告)日: | 2021-08-17 |
发明(设计)人: | 何小海;刘露平;刘亮;卿粼波;方勇;刘嘉勇;滕奇志 | 申请(专利权)人: | 四川大学 |
主分类号: | G06F21/56 | 分类号: | G06F21/56;H04L29/06 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610065 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 信息 分布 恶意 文档 检测 方法 | ||
本发明公开了一种恶意文档检测方法,包括以下步骤:(1)对文档进行预处理,然后以256字节的滑动窗口处理字节流并计算熵值,得到熵序列;(2)进行全局以及结构化熵特征提取。全局特征中,提取6种统计特征信息。结构化熵特征中,提取了序列的细节和局部特征。细节特征中,利用离散小波分解,计算序列的能量谱作为特征;局部特征中,将熵序列拆分成小块后计算小波分解近似系数,利用K‑means算法进行聚类得到编码字典并对样本进行编码后得到局部特征。(3)将三种特征进行组合并进行归一化。(4)将样本特征与标签输入到分类算法中进行训练后得到分类器并用于恶意文档的检测。该方法可以用于恶意文档的高效检测,其准确率更高,检测速度也更快。
技术领域
本发明涉及一种基于熵信息分布的恶意文档检测方法方法,属于恶意代码检测技术领域。
背景技术
恶意文档作为攻击载荷的传输攻载体在APT攻击事件中被广泛使用。在常见的攻击场景中,攻击者通过将包含恶意载荷的文档通过邮件或者其他社会工程学的手段发送并目标用户,并诱导目标用户打开文档。攻击载荷通过文档包含的“0day”漏洞或者“Nday”漏洞的方式触发漏洞后并进一步执行恶意代码。对恶意文档进行检测可以在攻击事件的发生前及时将其阻止。目前针对恶意文档检测方法主要包括基于静态分析的检测以及动态行为分析的检测两种方法。传统的基于静态分析的检测方法主要以基于签名特征的静态匹配和基于文档结构特征提取并结合机器学习的检测方法。基于签名的方法能够有效检测已知的样本攻击,但是针对未知样本或者已有样本的变种检测将无法发挥效果。而且随着样本的增加,特征数据库将变得越来越大,整个开销也变得越来越大。基于机器学习的方法能够有效检测未知样本,但是目前的特征提取主要集中在对文档结构的特征提取,因此导致这种检测方法目前只能适用于PDF或者DOCX等结构化比较高的样本。在基于动态行为分析的恶意样本检测中,其通过在沙盒中动态运行样本,通过收集目标进程的相关行为信息并进行分析后来进行检测。目前该种方法也面临着两个重要问题,一是整个动态检测在时间和资源上开销较大,从而导致无法进行大规模检测。另外一个则是样本对环境的依赖较为严重,只有当样本在特定环境中运行后才会触发相应的恶意行为。而实际情况中要在沙箱中配置各种环境一般不可能的,因此会导致一定的漏报。
基于以上问题,我们提出了一种基于文档熵信息分布特征并结合机器学习来进行恶意文档检测的新方法。该方法不依赖于文档的结构特征,而是从文档熵的分布规律上来进行特征提取。由于利用漏洞进行攻击的恶意文档,都会在正常的文档数据中插入外部的攻击代码,而这些攻击代码大部分都具有相似的特征。这些插入的数据会通过其文档的熵分布反应出来。因此我们通过调查恶意文档的熵分布特征,并提取其全局和结构化熵特征,最后利用机器学习算法来进行恶意文档的检测。
目前已有相关的方法利用文件熵分布信息来对恶意代码进行检测(Wojnowicz M,Chisholm G,Wallace B,et al.SUSPEND:Determining software suspiciousness bynon-stationary time series modeling of entropy signals[J].Expert Systems withApplications,2017,71.;Bat-Erdene M,Park H,Li H,et al.Entropy analysis toclassify unknown packing algorithms for malware detection[J].InternationalJournal of Information Security,2016,16(3):1-22.)。但是目前还没有利用熵的分布特征来进行恶意文档的检测的方法或者相关发明专利。该发明是第一次利用文档的熵分布特征来进行恶意文档的检测。在检测中,我们通过提取文档的熵分布特征,因此其不受文档格式的限制,适用范围更广,可以覆盖Microsoft Office以及PDF等主流办公软件格式。此外,我们的方法是基于静态特征提取并结合机器学习方法来进行恶意文档的检测,因此其开销较小,不需要构建特征库,也能够应用于大规模的检测。通过实验也表明该发明的方法也能有效应用于恶意文档的检测。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810409421.8/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置