[发明专利]一种恶意文档检测方法及装置有效
申请号: | 201710081580.5 | 申请日: | 2017-02-15 |
公开(公告)号: | CN106778278B | 公开(公告)日: | 2019-09-10 |
发明(设计)人: | 喻民;刘超;刘云政;李敏;姜建国 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F21/56 | 分类号: | G06F21/56 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王庆龙 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 恶意 文档 检测 方法 装置 | ||
技术领域
本发明涉及计算机技术领域,具体涉及一种恶意文档检测方法及装置。
背景技术
恶意文档在正常的文档中写入恶意代码,利用文档解析程序的漏洞使恶意代码执行的文档。恶意文档能够实现攻击行为是因为:为丰富文档的展示效果并实现对多种功能的支持,文档中支持嵌入脚本代码,允许执行系统调用。恶意文档检测起始于对Office文档宏病毒的检测。目前,对微软Office文档(word、ppt、excel等)和pdf文档检测是恶意文档检测的重点研究内容。
目前针对恶意文档的检测主要通过:提取文档中的恶意shellcode代码,利用已有的shellcode代码特征库进行匹配。提取文档中嵌入的脚本代码,对脚本代码中的系统调用进行检测。在仿真环境下(如沙箱系统)使用文档阅读软件打开文档,检测系统状态和阅读器软件的进程行为等。现有的恶意文档检测方法中,提取文档中的结构特征和元数据特征,利用机器学习方法训练出检测模型,利用训练出的检测模型对待测文档进行检测。文档的结构特征反映了文档中资源的分布情况,图1是现有的pdf文档结构示意图,图2是现有的word文档结构示意图。元数据特征包括文档中嵌入的脚本语言、文档大小、文档的生成软件、文档中是否有压缩内容等一系列的属性特征。
由于不同文档的文档结构不同,并且文档中支持嵌入的脚本语言也不同(如Office中为VBScript,pdf中为JavaScript)。现有的恶意文档检测方法检测的文档类型单一,只针对某一特定类型的文档进行检测。如果只是组合各种已有的文档检测模型来实现多种文档的统一检测,需要提取的特征太多,利用机器学习建立模型或更新模型都需要耗费大量的时间,文档检测效率低。
发明内容
本发明实施例提供一种恶意文档检测方法及装置,用于解决现有的恶意文档检测方法只能对特定类型的文档进行检测的问题。
本发明实施例提供了一种恶意文档检测方法,包括:
根据统一化处理后的各个文档类型的文档的结构特征和元数据特征建立机器学习模型;
获取待检测文档的结构特征和元数据特征;
采用通用的结构特征模型表示所述待检测文档的结构特征,采用通用的元数据特征模型表示所述待检测文档的元数据特征;
采用所述机器学习模型根据所述待检测文档的结构特征和元数据特征对所述待检测文档进行检测。
可选地,在所述根据统一化处理后的各个文档类型的文档的结构特征和元数据特征建立机器学习模型之前,所述方法还包括:
获取多种文档类型的文档对应的结构特征,将不同文档类型的相同属性的结构特征进行统一命名;
采用通用的结构特征模型表示各个文档类型的文档对应的结构特征;
获取多种文档类型的文档对应的元数据特征,将不同文档类型的相同属性的元数据特征进行统一命名;
采用通用的元数据特征模型表示各个文档类型的文档对应的元数据特征。
可选地,所述获取待检测文档的结构特征和元数据特征,包括:
判断待检测文档的文档类型,根据所述待检测文档的文档类型提取待检测文档的结构特征和元数据特征。
可选地,所述采用通用的结构特征模型表示所述待检测文档的结构特征,包括:
采用有向图表示所述待检测文档的结构,使用矩阵表示所述有向图;
其中,所述矩阵的列表示所述有向图的各个节点的起点,所述矩阵的行表示所述有向图的各个节点的终点,用1表示起点到终点可达,用0表示起点到终点不可达。
可选地,所述采用通用的元数据特征模型表示所述待检测文档的元数据特征,包括:
将所述待检测文档中的脚本语言转换为通用的元数据特征模型中的中间语言。
本发明实施例提供了一种恶意文档检测装置,包括:
机器学习模型建立单元,用于根据统一化处理后的各个文档类型的文档的结构特征和元数据特征建立机器学习模型;
特征获取单元,用于获取待检测文档的结构特征和元数据特征;
特征统一化单元,用于采用通用的结构特征模型表示所述待检测文档的结构特征,采用通用的元数据特征模型表示所述待检测文档的元数据特征;
检测单元,用于采用所述机器学习模型根据所述待检测文档的结构特征和元数据特征对所述待检测文档进行检测。
可选地,还包括:
统一化处理单元,用于获取多种文档类型的文档对应的结构特征,将不同文档类型的相同属性的结构特征进行统一命名;
采用通用的结构特征模型表示各个文档类型的文档对应的结构特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710081580.5/2.html,转载请声明来源钻瓜专利网。