[发明专利]一种文件碎片分类方法及系统在审
申请号: | 201911146348.0 | 申请日: | 2019-11-21 |
公开(公告)号: | CN110928848A | 公开(公告)日: | 2020-03-27 |
发明(设计)人: | 尹凌;奚桂锴 | 申请(专利权)人: | 中国科学院深圳先进技术研究院 |
主分类号: | G06F16/16 | 分类号: | G06F16/16;G06N3/04;G06N3/08 |
代理公司: | 深圳市科进知识产权代理事务所(普通合伙) 44316 | 代理人: | 曹卫良 |
地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文件 碎片 分类 方法 系统 | ||
1.一种文件碎片分类方法,其特征在于,该方法包括如下步骤:
a.利用文件数据集,构建文件碎片数据集,所述的文件碎片数据集包括:训练集和测试集;
b.对构建的文件碎片数据集进行预处理;
c.构建深度卷积神经网络模型;
d.利用预处理后的训练集和测试集,对上述构建的深度卷积神经网络模型进行训练和评估;
e.利用所述深度卷积神经网络模型预测文件碎片所属的文件类型。
2.如权利要求1所述的方法,其特征在于,所述的步骤a具体包括:
对公开文件数据集govdocs1包含的所有zip压缩包文件进行解压,将解压后文件夹中的文件按照所属的文件类型划分到不同的类别;
将对应待研究的文件类型所选取的文件划分成两类,以生成分别用于训练集和测试集的文件碎片;
对每个文件根据所选的文件碎片大小进行切片以生成大量文件碎片,并删除每个文件的头一个文件碎片,及最后一个小于指定文件碎片大小的文件碎片。
3.如权利要求2所述的方法,其特征在于,所述的步骤b具体包括:
对生成的训练集和测试集中的每一个文件碎片都进行转换,通过简单的形状变化将一维的文件碎片转换为二维灰度图像;
对每个所述二维灰度图像进行归一化处理,计算训练集中每个位置像素点的最大值和最小值,将训练集和测试集中对应的二维灰度图像,依据训练集中求得的所述最大值和最小值将对应的像素点进行缩放,使得所述像素点的灰度值落在-1到1之间。
4.如权利要求3所述的方法,其特征在于,所述的深度卷积神经网络模型包含L个卷积块,一个全局平均池化层以及两个全连接层。
5.如权利要求4所述的方法,其特征在于,所述卷积块包括:卷积层、残差单元和最大池化层三个部分;
卷积块的数量L受转换后的灰度图像的大小限制:
Lmax=min(log2max(w,h)-1,log2min(w,h))
在该式中,Lmax指的是所述模型中允许堆叠的卷积块的最大数量,w和h分别指的是转换后的二维灰度图像的宽和高。
6.如权利要求5所述的方法,其特征在于,所述卷积层使用d个1x1的卷积核,假设卷积块输入了C个IxJ的特征图,则卷积层对输入特征图的通道数进行上采样。
7.如权利要求6所述的方法,其特征在于,所述残差单元包含两个卷积层,采用残差学习的方法进行跳跃连接。
8.如权利要求7所述的方法,其特征在于,所述最大池化层对每个输入特征图进行空间上的下采样,减小为原来的即
9.如权利要求8所述的方法,其特征在于,所述的步骤d具体包括:
利用预处理后的测试集对所述的深度卷积神经网络进行评估,评估指标包括多个文件碎片类别的平均分类准确率,宏平均的F1分数和微平均的F1分数。
10.一种文件碎片分类系统,其特征在于,该系统包括碎片数据集构建模块、预处理模块、模型构建模块、训练评估模块以及文件类型预测模块,其中:
所述碎片数据集构建模块用于利用文件数据集,构建文件碎片数据集,所述的文件碎片数据集包括:训练集和测试集;
所述预处理模块用于对构建的文件碎片数据集进行预处理;
所述模型构建模块用于构建深度卷积神经网络模型;
所述训练评估模块用于利用预处理后的训练集和测试集,对上述构建的深度卷积神经网络模型进行训练和评估;
所述文件类型预测模块用于利用所述深度卷积神经网络模型预测文件碎片所属的文件类型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院深圳先进技术研究院,未经中国科学院深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911146348.0/1.html,转载请声明来源钻瓜专利网。