[发明专利]一种恶意PDF文件的检测方法、装置及电子设备在审
申请号: | 202110469323.5 | 申请日: | 2021-04-28 |
公开(公告)号: | CN113111350A | 公开(公告)日: | 2021-07-13 |
发明(设计)人: | 黄娜;薛智慧;余小军 | 申请(专利权)人: | 北京天融信网络安全技术有限公司;北京天融信科技有限公司;北京天融信软件有限公司 |
主分类号: | G06F21/56 | 分类号: | G06F21/56;G06N20/00 |
代理公司: | 北京金信知识产权代理有限公司 11225 | 代理人: | 韩岳松 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 恶意 pdf 文件 检测 方法 装置 电子设备 | ||
1.一种恶意PDF文件的检测方法,其特征在于,包括:
获取待检测PDF文件;
提取所述待检测PDF文件中的待检测特征,基于训练检测模型使用的训练特征确定所述待检测特征;
将所述待检测特征作为预先训练好的所述检测模型的输入以得到所述检测模型的输出,基于所述检测模型的输出确定所述待检测PDF文件是否为恶意PDF文件。
2.根据权利要求1所述的检测方法,其特征在于,所述检测模型的输出为概率值;所述基于所述检测模型的输出确定所述待检测PDF文件是否为恶意PDF文件,包括:
将所述检测模型输出的概率值与预设阈值进行对比;
若所述概率值大于或等于所述预设阈值,则确定所述待检测PDF文件为恶意PDF文件。
3.根据权利要求1所述的检测方法,其特征在于,还包括训练所述检测模型的步骤:
获取包含多个携带有标签的PDF文件样本的训练样本集,所述训练样本集包括N个正常PDF文件样本以及M个恶意PDF文件样本,其中,所述正常PDF文件样本携带有正常标签,所述恶意PDF文件样本携带有恶意标签;
针对每个PDF文件样本,提取候选特征,所述候选特征包括至少一个内容特征和至少一个结构特征;
计算每两个所述候选特征之间的关联程度以及计算每个所述候选特征的重要程度和离散程度得到至少一个冗余特征,从所有所述候选特征中去除所述冗余样本特征得到训练特征;
将所述训练特征作为待训练的检测模型的输入以得到训练结果;
计算所述训练结果与理论结果之间的误差值,并在所述误差值大于允许误差值的情况下,调整所述待训练的检测模型的模型参数,直至所述误差值小于或等于所述允许误差值。
4.根据权利要求3所述的检测方法,其特征在于,所述计算每两个所述候选特征之间的关联程度以及计算每个所述候选特征的重要程度和离散程度得到至少一个冗余特征,包括:
计算每两个所述候选特征之间的相关系数,在所述相关系数大于或等于预设阈值的情况下,则将两个所述候选特征中的一个作为所述冗余特征;
计算每个所述候选特征的重要系数,按照第一划分规则从所有所述候选特征中筛选至少一个所述候选特征作为所述冗余特征;
计算每个所述候选特征的离散系数,按照第二划分规则从所有所述候选特征中筛选至少一个所述候选特征作为所述冗余特征。
5.根据权利要求3所述的检测方法,其特征在于,所述内容特征至少包括以下一个:所述待检测PDF文件的文件格式版本、文件结尾标志数量、结尾标志后的字节数、文件修改标识、文件字节熵、文件字节数、流与非流字节比例、对象数与文件大小比例、流内容字节熵、流内容字节数、非流内容字节熵以及非流内容字节数。
6.根据权利要求3所述的检测方法,其特征在于,所述结构特征至少包括以下一个:JavaScript对象、交互式表单、自动执行相应动作、嵌入URL、嵌入文件、Encoding对象、Font对象、Resources对象、MediaBox对象、文件页面集合、文件页面布局以及表单类型。
7.一种恶意PDF文件的检测装置,其特征在于,包括:
获取模块,其配置为获取待检测PDF文件;
提取模块,其配置为提取所述待检测PDF文件中的待检测特征,基于训练检测模型使用的训练特征确定所述待检测特征;
确定模块,其配置为将所述待检测特征作为预先训练好的所述检测模型的输入以得到所述检测模型的输出,基于所述检测模型的输出确定所述待检测PDF文件是否为恶意PDF文件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京天融信网络安全技术有限公司;北京天融信科技有限公司;北京天融信软件有限公司,未经北京天融信网络安全技术有限公司;北京天融信科技有限公司;北京天融信软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110469323.5/1.html,转载请声明来源钻瓜专利网。