[发明专利]一种恶意文档检测方法、装置、电子设备及存储介质有效
申请号: | 202011173874.9 | 申请日: | 2020-10-28 |
公开(公告)号: | CN112487422B | 公开(公告)日: | 2023-04-04 |
发明(设计)人: | 喻民;刘超;宋楠;姜建国;高世浩;李梅梅;黄伟庆 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F21/56 | 分类号: | G06F21/56;G06F40/216 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 杨明月 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 恶意 文档 检测 方法 装置 电子设备 存储 介质 | ||
1.一种恶意文档检测方法,其特征在于,包括:
对待检测文档进行分析,得到文档特征信息;
将所述文档特征信息输入预设恶意文档检测模型,得到检测结果信息;
其中,所述预设恶意文档检测模型通过带恶意标签的样本文档特征信息和无标签的样本文档特征信息训练得到的;
所述恶意文档检测模型通过如下步骤获取:
对待检测样本文档进行分析,得到所述带恶意标签的样本文档特征信息和所述无标签的样本文档特征信息;
S101,从无标签的样本文档特征信息中随机获取与带恶意标签的样本文档特征信息数量相同的多个无标签的样本文档特征信息,并结合所述带恶意标签的样本文档特征信息,得到样本训练集;
S102根据所述样本训练集构建一个基分类器,将所述基分类器用于对无标签的样本文档特征信息进行分类;
重复步骤S101-S102,直至重复至预设次数,得到预设恶意文档检测模型;
所述对待检测文档进行分析,得到文档特征信息,包括:
在确定文档类型信息后,根据如下至少一项确定不同的文档类型信息对应的文档特征信息提取方案:
针对二进制格式文档,使用正则表达式提取所述二进制格式文档对应的关键字的数量或路径的数量,根据所述关键字的数量或所述路径的数量构建特征矩阵,得到所述二进制格式文档的文档特征信息,所述二进制格式文档的关键字包括Dim Sub Function、signature和sectDirStart中的至少一项;
针对PDF文档,使用搜索字符匹配技术进行所述PDF文档的关键字和所述PDF文档的路径的匹配,得到所述PDF文档的关键字的数量,基于所述PDF文档的关键字的数量构建文档结构特征矩阵,得到所述PDF文档的文档特征信息;所述PDF文档的关键字为JS、JAVASCRIPT、OpenAction、eval、fromCharCode、unescape中的至少一项。
2.根据权利要求1所述恶意文档检测方法,其特征在于,所述对待检测文档进行分析,得到文档特征信息的步骤,具体包括:
对所述待检测文档进行文档结构特征分析,得到文档特征结构信息;
对所述待检测文档进行统计特征分析,得到文档统计特征信息;
将所述文档特征结构信息和所述文档统计特征信息连接后,得到文档特征信息。
3.根据权利要求2所述恶意文档检测方法,其特征在于,对所述待检测文档进行文档结构特征分析,得到文档特征结构信息的步骤,具体包括:
分析文档头部的文档类型字段,确定文档类型信息,根据文档类型信息确定文档结构提取方案;
根据所述文档结构提取方案对所述待检测文档进行关键字提取,得到文档结构特征信息。
4.根据权利要求2所述恶意文档检测方法,其特征在于,对所述待检测文档进行统计特征分析,得到文档统计特征信息的步骤,具体包括;
将所述待检测文档按照预设长度进行分块,得到分块待检测文档;
根据每个分块待检测文档中目标字节值出现的频率,计算每个分块待检测文档的熵值;
将每个分块待检测文档的熵值拼接得到待检测文档的熵序列,使用小波变换对所述待检测文档的熵序列进行分解,得到第一统计特征;
根据所述待检测文档的熵序列的均值信息、方差信息和零值信息得到第二统计特征;
根据所述第一统计特征和所述第二统计特征得到文档统计特征信息。
5.根据权利要求1所述恶意文档检测方法,其特征在于,在所述对待检测文档进行分析,得到文档特征信息的步骤之前,所述方法还包括:
对待检测样本文档进行分析,得到带恶意标签的样本文档特征信息和无标签的样本文档特征信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011173874.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种烹饪设备及其控制方法
- 下一篇:页面生成方法、装置、电子介质及存储介质