[发明专利]一种基于熵信息分布的恶意文档检测方法有效
申请号: | 201810409421.8 | 申请日: | 2018-06-15 |
公开(公告)号: | CN108710797B | 公开(公告)日: | 2021-08-17 |
发明(设计)人: | 何小海;刘露平;刘亮;卿粼波;方勇;刘嘉勇;滕奇志 | 申请(专利权)人: | 四川大学 |
主分类号: | G06F21/56 | 分类号: | G06F21/56;H04L29/06 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610065 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 信息 分布 恶意 文档 检测 方法 | ||
1.一种基于熵信息分布的恶意文档检测方法,其特征在于,包括以下步骤:
步骤一:对文档进行预处理,并计算文档的熵序列;
步骤二:在文档的熵序列基础上,提取熵序列的全局特征和结构化熵特征,其中结构化熵特征包括:基于离散小波变换的细节特征和基于词袋模型的局部编码特征;
步骤三:将三种提取的特征进行组合,并按照最大值最小值的方式进行归一化后得到样本的特征;
步骤四:将归一化处理后的特征送入到机器学习模型进行训练,并对模型相关参数进行优化后得到检测模型;
步骤五:利用训练好的模型对新的文档进行检测。
2.根据权利要求1所述的基于熵信息分布的恶意文档检测方法其特征在于:在对文档进行预处理步骤中,针对DOCX文档,对其按照ZIP格式进行解压缩操作;针对PDF文档的Object流对象,按照流对象的编码或者压缩格式进行相应的解码或者解压缩,其中流对象的编码格式通过流对象的标签信息获取;在计算文档熵序列时,以256字节的窗口进行滑动并依次计算单个窗口的熵值,所有块的熵值依次进行排列后得到文档的熵序列V=[v1,v2,......,vi],在该步骤中,单个块的熵值按照公式1进行计算:
3.根据权利要求2所述的基于熵信息分布的恶意文档检测方法其特征在于:
(1)在提取熵序列的全局统计特征时,提取的6种全局统计特征如下:熵序列长度、熵序列平均值、熵序列平均方差、熵序列最大值、熵序列中熵值大于7.0的序列所占百分比、熵序列中熵值为0的序列所占的百分比;
(2)在提取结构化熵特征时,分别基于离散小波变换(Discrete Wavelet Transform,DWT)和词袋模型(Bag of Words,BOW)来计算熵序列的细节特征和局部特征;其中利用离散小波变换进行细节特征提取时,利用Haar小波对熵序列进行分解,针对单个熵序列,进行20层级的分解,提取每个层级的细节分解系数;其中Haar小波的母函数表示形式如公式2所示:
在进行细节系数计算时,首先根据Haar母函数计算其小波函数簇,计算过程如公式3所示:
ψj,k(t)=2j/2ψ(2jt-k) (3)
得到小波函数簇后,根据下面式子计算各个层级的细节分解系数:
上述式子中要求j为2的幂次方;对信号进行20层级的分解并得到分解的细节系数后,计算其能量谱特征,总共得到20个能量谱特征,对于分解层级不足20层的,对其能量谱特征进行补0操作;能量谱计算形式如公式5所示:
(3)在基于词袋模型的局部特征提取中,将所有的样本的熵序列以6个序列为一个小块长度分解成多个局部小块,针对每个小块利用Haar小波进行3层级的离散小波分解,将三个层级离散小波分解的近似系数依次进行组合,得到维度为5的局部块特征;其中近似系数分解计算过程分为三个步骤:
首先计算Haar小波的尺度函数,其尺度函数表现形式如公式6所示:
然后根据尺度函数计算Haar小波的尺度函数簇,尺度函数簇是对尺度函数进行尺度分解后得到的函数簇,尺度函数簇计算形式如公式7所示(其中j=1,2,4):
φj,k(t)=2j/2φ(2jt-k) (7)
得到各个分解层级的尺度函数后,各个层级的近似系数计算形式如公式8(其中j=1,2,4):
对所有块按照上述三个步骤计算得到局部块特征后,对所有的局部块特征利用K-means算法进行聚类,其类大小设置为250,得到大小为250的codebook;针对单个样本的所有局部序列,利用codebook对其进行编码,在进行编码时以欧式距离进行相似度度量,将距离最近的codeword赋予给相应的局部块;当一个样本的所有局部块都编码完成后,根据样本中codewords的分布计算直方图分布,直方图分布即作为局部块的局部编码特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810409421.8/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置