[发明专利]一种基于熵信息分布的恶意文档检测方法有效

专利信息
申请号: 201810409421.8 申请日: 2018-06-15
公开(公告)号: CN108710797B 公开(公告)日: 2021-08-17
发明(设计)人: 何小海;刘露平;刘亮;卿粼波;方勇;刘嘉勇;滕奇志 申请(专利权)人: 四川大学
主分类号: G06F21/56 分类号: G06F21/56;H04L29/06
代理公司: 暂无信息 代理人: 暂无信息
地址: 610065 四川*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 信息 分布 恶意 文档 检测 方法
【权利要求书】:

1.一种基于熵信息分布的恶意文档检测方法,其特征在于,包括以下步骤:

步骤一:对文档进行预处理,并计算文档的熵序列;

步骤二:在文档的熵序列基础上,提取熵序列的全局特征和结构化熵特征,其中结构化熵特征包括:基于离散小波变换的细节特征和基于词袋模型的局部编码特征;

步骤三:将三种提取的特征进行组合,并按照最大值最小值的方式进行归一化后得到样本的特征;

步骤四:将归一化处理后的特征送入到机器学习模型进行训练,并对模型相关参数进行优化后得到检测模型;

步骤五:利用训练好的模型对新的文档进行检测。

2.根据权利要求1所述的基于熵信息分布的恶意文档检测方法其特征在于:在对文档进行预处理步骤中,针对DOCX文档,对其按照ZIP格式进行解压缩操作;针对PDF文档的Object流对象,按照流对象的编码或者压缩格式进行相应的解码或者解压缩,其中流对象的编码格式通过流对象的标签信息获取;在计算文档熵序列时,以256字节的窗口进行滑动并依次计算单个窗口的熵值,所有块的熵值依次进行排列后得到文档的熵序列V=[v1,v2,......,vi],在该步骤中,单个块的熵值按照公式1进行计算:

3.根据权利要求2所述的基于熵信息分布的恶意文档检测方法其特征在于:

(1)在提取熵序列的全局统计特征时,提取的6种全局统计特征如下:熵序列长度、熵序列平均值、熵序列平均方差、熵序列最大值、熵序列中熵值大于7.0的序列所占百分比、熵序列中熵值为0的序列所占的百分比;

(2)在提取结构化熵特征时,分别基于离散小波变换(Discrete Wavelet Transform,DWT)和词袋模型(Bag of Words,BOW)来计算熵序列的细节特征和局部特征;其中利用离散小波变换进行细节特征提取时,利用Haar小波对熵序列进行分解,针对单个熵序列,进行20层级的分解,提取每个层级的细节分解系数;其中Haar小波的母函数表示形式如公式2所示:

在进行细节系数计算时,首先根据Haar母函数计算其小波函数簇,计算过程如公式3所示:

ψj,k(t)=2j/2ψ(2jt-k) (3)

得到小波函数簇后,根据下面式子计算各个层级的细节分解系数:

上述式子中要求j为2的幂次方;对信号进行20层级的分解并得到分解的细节系数后,计算其能量谱特征,总共得到20个能量谱特征,对于分解层级不足20层的,对其能量谱特征进行补0操作;能量谱计算形式如公式5所示:

(3)在基于词袋模型的局部特征提取中,将所有的样本的熵序列以6个序列为一个小块长度分解成多个局部小块,针对每个小块利用Haar小波进行3层级的离散小波分解,将三个层级离散小波分解的近似系数依次进行组合,得到维度为5的局部块特征;其中近似系数分解计算过程分为三个步骤:

首先计算Haar小波的尺度函数,其尺度函数表现形式如公式6所示:

然后根据尺度函数计算Haar小波的尺度函数簇,尺度函数簇是对尺度函数进行尺度分解后得到的函数簇,尺度函数簇计算形式如公式7所示(其中j=1,2,4):

φj,k(t)=2j/2φ(2jt-k) (7)

得到各个分解层级的尺度函数后,各个层级的近似系数计算形式如公式8(其中j=1,2,4):

对所有块按照上述三个步骤计算得到局部块特征后,对所有的局部块特征利用K-means算法进行聚类,其类大小设置为250,得到大小为250的codebook;针对单个样本的所有局部序列,利用codebook对其进行编码,在进行编码时以欧式距离进行相似度度量,将距离最近的codeword赋予给相应的局部块;当一个样本的所有局部块都编码完成后,根据样本中codewords的分布计算直方图分布,直方图分布即作为局部块的局部编码特征。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810409421.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top