[发明专利]恶意Word文档检测方法和装置有效
申请号: | 201811601084.9 | 申请日: | 2018-12-26 |
公开(公告)号: | CN109858248B | 公开(公告)日: | 2021-06-29 |
发明(设计)人: | 喻民;刘超;夏彬;姜建国;李敏;黄伟庆;刘明奇 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F21/56 | 分类号: | G06F21/56 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹;吴欢燕 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 恶意 word 文档 检测 方法 装置 | ||
1.一种恶意Word文档检测方法,其特征在于,包括:
提取待检测的Word文档中的可疑代码及负载;
根据预先构建的恶意文档代码特征库对所述待检测的Word文档中的可疑代码及负载进行扫描和模式匹配,获取所述待检测的Word文档的特征向量;
将所述待检测的Word文档的特征向量输入至恶意文档分类模型中,获取所述恶意文档分类模型输出的分类结果;
根据所述分类结果和所述待检测的Word文档的特征向量,生成所述待检测的Word文档的检测报告;
其中,所述恶意文档分类模型是基于Word文档样本的特征向量和对应的分类标签进行训练获得的;
其中,所述提取待检测的Word文档中的可疑代码及负载的步骤,具体为:
利用文件头判断待检测的Word文档的类型,并利用与类型相对应的解析方法对所述待检测的Word文档进行解析;
根据解析结果提取所述待检测Word文档中的可疑代码及负载;
其中,所述根据预先构建的恶意文档代码特征库对所述待检测的Word文档中的可疑代码及负载进行扫描和模式匹配的步骤之前,还包括:
构建所述恶意文档代码特征库;
其中,所述恶意文档代码特征库包括四个层次组成的多个特征,所述四个层次具体为:可疑关键字、编码方式、混淆方式和IOC;
其中,所述利用与类型相对应的解析方法对所述待检测的Word文档进行解析的步骤,具体为:
若判断获知所述待检测的Word文档为2003版本,则按照复合文档对所述待检测的Word文档进行解析,获得所有目录directory;或者,
若判断获知所述待检测的Word文档为2007或2007以后的版本,则按照Open XML文档结构对所述待检测的Word文档进行解析,获得解压后的文件;
其中,所述根据解析结果提取所述待检测Word文档中的可疑代码及负载的步骤,具体为:
若所述待检测的Word文档为2003版本,则查看所述所有目录directory是否为数据流stream,若是,则处理数据流提取有效代码,并判断是否存在目录directory的名字为\x01Ole10Native,若存在,则按照OLE文件格式还原该目录directory对应的数据流;或者,
若所述待检测的Word文档为2007版本或2007版本以后的版本,则提取所述待检测的Word文档中的宏代码和可疑的XML文件,并扫描所述解压后的文件,保存OLE格式文件。
2.根据权利要求1所述的方法,其特征在于,训练所述恶意文档分类模型的步骤,具体为:
获取大量恶意Word文档和正常Word文档,并为获取的每个Word文档打标签,构建Word文档样本库;
提取所述Word文档样本库中每个Word文档样本的可疑代码及负载,并根据所述恶意文档代码特征库对所述每个Word文档样本的可疑代码及负载进行扫描和模式匹配,获取所述每个Word文档样本的特征向量;
将所述每个Word文档样本的特征向量及对应的标签输入机器学习模型中进行训练,保存训练结束时所述机器学习模型的参数,获得恶意文档分类模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811601084.9/1.html,转载请声明来源钻瓜专利网。