[发明专利]一种恶意文档检测方法、装置、电子设备及存储介质有效

申请号：	202011173874.9	申请日：	2020-10-28
公开（公告）号：	CN112487422B	公开（公告）日：	2023-04-04
发明（设计）人：	喻民;刘超;宋楠;姜建国;高世浩;李梅梅;黄伟庆	申请（专利权）人：	中国科学院信息工程研究所
主分类号：	G06F21/56	分类号：	G06F21/56;G06F40/216
代理公司：	北京路浩知识产权代理有限公司 11002	代理人：	杨明月
地址：	100093 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种恶意文档检测方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例提供一种恶意文档检测方法、装置、电子设备及存储介质，该方法包括：对待检测文档进行分析，得到文档特征信息；将所述文档特征信息输入预设恶意文档检测模型，得到检测结果信息；其中，所述预设恶意文档检测模型通过带恶意标签的样本文档特征信息和无标签的样本文档特征信息训练得到的。通过待检测文档的特点，分别提取了文档特征结构信息和文档统计特征信息得到文档特征信息，然后选取了一种半监督学习方法，构建多棵决策树来进行恶意文档检测，多棵决策树集成的思想提高检测准确率而节省了大量的数据标注工作，从而更符合真实应用场景，最终更好的实现恶意文档检测。

技术领域

本发明涉及信息处理技术领域，尤其涉及一种恶意文档检测方法、装置、电子设备及存储介质。

背景技术

电子办公文档是日常办公通信中使用频率最高的信息载体。近几年来，有越来越多的网络黑客选择使用常见的办公文档作为载体使用恶意文档进行恶意攻击。恶意文档因为其灵活且攻击手段多的特点常被用于高级可持续威胁攻击和勒索软件等案例。恶意文档攻击给个人，企业带来了巨大的风险。因此，检测恶意文档显得十分重要。

现有技术中的恶意文档检测主要是基于有监督学习，其训练的模型效果依赖于样本的质量。而在实际的安全场景中，恶意样本依赖于安全人员的手工检测，并且存在着大量的良性恶意未知的样本。传统的有监督学习无法使用于这种实际情况。公开样本与现实环境中的数据存在差距，这导致训练效果较好的模型在实际的安全场景中表现一遍，并不能够很好地解决安全问题。

因此，如何更好的实现恶意文档检测已经成为业界亟待解决的问题。

发明内容

本发明实施例提供一种恶意文档检测方法、装置、电子设备及存储介质，用以解决上述背景技术中提出的技术问题，或至少部分解决上述背景技术中提出的技术问题。

第一方面，本发明实施例提供一种恶意文档检测方法，包括：

对待检测文档进行分析，得到文档特征信息；

将所述文档特征信息输入预设恶意文档检测模型，得到检测结果信息；

其中，所述预设恶意文档检测模型通过带恶意标签的样本文档特征信息和无标签的样本文档特征信息训练得到的。

更具体的，所述对待检测文档进行分析，得到文档特征信息的步骤，具体包括：

对所述待检测文档进行文档结构特征分析，得到文档特征结构信息；

对所述待检测文档进行统计特征分析，得到文档统计特征信息；

将所述文档特征结构信息和所述文档统计特征信息连接后，得到文档特征信息。

更具体的，对所述待检测文档进行文档结构特征分析，得到文档特征结构信息的步骤，具体包括：