[发明专利]一种文件碎片分类方法及系统在审

专利信息
申请号: 201911146348.0 申请日: 2019-11-21
公开(公告)号: CN110928848A 公开(公告)日: 2020-03-27
发明(设计)人: 尹凌;奚桂锴 申请(专利权)人: 中国科学院深圳先进技术研究院
主分类号: G06F16/16 分类号: G06F16/16;G06N3/04;G06N3/08
代理公司: 深圳市科进知识产权代理事务所(普通合伙) 44316 代理人: 曹卫良
地址: 518055 广东省深圳*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 文件 碎片 分类 方法 系统
【说明书】:

发明涉及一种文件碎片分类方法,包括:利用文件数据集,构建文件碎片数据集,所述的文件碎片数据集包括:训练集和测试集;对构建的文件碎片数据集进行预处理;构建深度卷积神经网络模型;利用预处理后的训练集和测试集,对上述构建的深度卷积神经网络模型进行训练和评估;利用所述深度卷积神经网络模型预测文件碎片所属的文件类型。本发明还涉及一种文件碎片分类系统。本发明无需手动设计特征,无需其他先验知识,能够自动学习到输入的文件碎片的特征,并且设计的深度卷积神经网络能够适用于不同大小的文件碎片的分类任务,具有更好的分类效果。

技术领域

本发明涉及一种文件碎片分类方法及系统。

背景技术

当犯罪嫌疑人删除存储在磁盘中的文件后,磁盘中往往还会有残留的文件内容。如果司法取证人员想要通过磁盘中的文件碎片寻找证据,就需要对这些文件碎片进行重组进而拼接成文件。

如果直接对大量的文件碎片进行两两拼接,则需要耗费巨大的计算量。如果能够提前知道各文件碎片所属文件的文件类型(即,文件碎片的类型),则可以大大减少所需要尝试的组合数量。

现有文件碎片分类方法中的一类是利用魔幻数字等来识别不同文件类型的文件。这些魔幻数字一般出现在文件头和文件尾,并且不同文件类型的文件会在不同的位置出现不同数值的魔幻数字。由于磁盘中的文件往往以碎片化的形式存储,同属一个文件的多个文件碎片并不总是顺序相连,故通常难以利用文件的文件头信息和文件尾信息来识别不同文件类型的文件碎片。

另一类文件碎片分类方法是基于内容的文件碎片分类方法。基于内容的文件碎片分类方法是直接通过对文件碎片内容的分析进而预测该文件碎片的文件类型。该方法不需要依赖于文件签名或者魔幻数字等。现有基于内容的文件碎片分类方法主要是从统计学角度出发,通过提取各文件碎片的统计学特征,如unigram和bigram的频率分布,以及熵等,建立传统的机器学习模型,如LDA、SVM和KNN等,进而识别出各文件碎片所对应的类型。在基于内容的文件碎片分类方法中,通过提取文件碎片的统计学特征进而建立传统机器学习模型的方法严重依赖于特征的设计,是耗时的并且要求具备大量的专业知识。而且,这类方法目前并不能达到比较好的分类效果。

在基于内容的文件碎片分类方法中,现有基于深度学习的文件碎片分类方法还没有成熟,相应的分类效果不好,低于基于传统机器学习模型的文件碎片分类方法。现有基于深度学习的研究还需针对不同大小的文件碎片设计不同的神经网络架构,因此这类现有方法的适用性也受到了一定的限制。

发明内容

有鉴于此,有必要提供一种文件碎片分类方法及系统。

本发明提供一种文件碎片分类方法,该方法包括如下步骤:a.利用文件数据集,构建文件碎片数据集,所述的文件碎片数据集包括:训练集和测试集;b.对构建的文件碎片数据集进行预处理;c.构建深度卷积神经网络模型;d.利用预处理后的训练集和测试集,对上述构建的深度卷积神经网络模型进行训练和评估;e.利用所述深度卷积神经网络模型预测文件碎片所属的文件类型。

其中,所述的步骤a具体包括:

对公开文件数据集govdocs1包含的所有zip压缩包文件进行解压,将解压后文件夹中的文件按照所属的文件类型划分到不同的类别;

将对应待研究的文件类型所选取的文件划分成两类,以生成分别用于训练集和测试集的文件碎片;

对每个文件根据所选的文件碎片大小进行切片以生成大量文件碎片,并删除每个文件的头一个文件碎片,及每个文件最后一个小于指定文件碎片大小的文件碎片。

所述的步骤b具体包括:

对生成的训练集和测试集中的每一个文件碎片都进行转换,通过简单的形状变化将一维的文件碎片转换为二维灰度图像;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院深圳先进技术研究院,未经中国科学院深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911146348.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top