[发明专利]一种恶意文档检测方法、装置、电子设备及存储介质有效
申请号: | 202011173874.9 | 申请日: | 2020-10-28 |
公开(公告)号: | CN112487422B | 公开(公告)日: | 2023-04-04 |
发明(设计)人: | 喻民;刘超;宋楠;姜建国;高世浩;李梅梅;黄伟庆 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F21/56 | 分类号: | G06F21/56;G06F40/216 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 杨明月 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 恶意 文档 检测 方法 装置 电子设备 存储 介质 | ||
本发明实施例提供一种恶意文档检测方法、装置、电子设备及存储介质,该方法包括:对待检测文档进行分析,得到文档特征信息;将所述文档特征信息输入预设恶意文档检测模型,得到检测结果信息;其中,所述预设恶意文档检测模型通过带恶意标签的样本文档特征信息和无标签的样本文档特征信息训练得到的。通过待检测文档的特点,分别提取了文档特征结构信息和文档统计特征信息得到文档特征信息,然后选取了一种半监督学习方法,构建多棵决策树来进行恶意文档检测,多棵决策树集成的思想提高检测准确率而节省了大量的数据标注工作,从而更符合真实应用场景,最终更好的实现恶意文档检测。
技术领域
本发明涉及信息处理技术领域,尤其涉及一种恶意文档检测方法、装置、电子设备及存储介质。
背景技术
电子办公文档是日常办公通信中使用频率最高的信息载体。近几年来,有越来越多的网络黑客选择使用常见的办公文档作为载体使用恶意文档进行恶意攻击。恶意文档因为其灵活且攻击手段多的特点常被用于高级可持续威胁攻击和勒索软件等案例。恶意文档攻击给个人,企业带来了巨大的风险。因此,检测恶意文档显得十分重要。
现有技术中的恶意文档检测主要是基于有监督学习,其训练的模型效果依赖于样本的质量。而在实际的安全场景中,恶意样本依赖于安全人员的手工检测,并且存在着大量的良性恶意未知的样本。传统的有监督学习无法使用于这种实际情况。公开样本与现实环境中的数据存在差距,这导致训练效果较好的模型在实际的安全场景中表现一遍,并不能够很好地解决安全问题。
因此,如何更好的实现恶意文档检测已经成为业界亟待解决的问题。
发明内容
本发明实施例提供一种恶意文档检测方法、装置、电子设备及存储介质,用以解决上述背景技术中提出的技术问题,或至少部分解决上述背景技术中提出的技术问题。
第一方面,本发明实施例提供一种恶意文档检测方法,包括:
对待检测文档进行分析,得到文档特征信息;
将所述文档特征信息输入预设恶意文档检测模型,得到检测结果信息;
其中,所述预设恶意文档检测模型通过带恶意标签的样本文档特征信息和无标签的样本文档特征信息训练得到的。
更具体的,所述对待检测文档进行分析,得到文档特征信息的步骤,具体包括:
对所述待检测文档进行文档结构特征分析,得到文档特征结构信息;
对所述待检测文档进行统计特征分析,得到文档统计特征信息;
将所述文档特征结构信息和所述文档统计特征信息连接后,得到文档特征信息。
更具体的,对所述待检测文档进行文档结构特征分析,得到文档特征结构信息的步骤,具体包括:
分析文档头部的文档类型字段,确定文档类型信息,根据文档类型信息确定文档结构提取方案;
根据所述文档结构提取方案对所述待检测文档进行关键字提取,得到文档结构特征信息。
更具体的,对所述待检测文档进行统计特征分析,得到文档统计特征信息的步骤,具体包括;
将所述待检测文档按照预设长度进行分块,得到分块待检测文档;
根据每个分块待检测文档中目标字节值出现的频率,计算每个分块待检测文档的熵值;
将每个分块待检测文档的熵值拼接得到待检测文档的熵序列,使用小波变换对所述待检测文档的熵序列进行分解,得到第一统计特征;
根据所述待检测文档的熵序列的均值信息、方差信息和零值信息得到第二统计特征;
根据所述第一统计特征和所述第二统计特征得到文档统计特征信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011173874.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种烹饪设备及其控制方法
- 下一篇:页面生成方法、装置、电子介质及存储介质