[发明专利]一种基于递归提取的复杂文件数据包差异性比对方法在审

申请号：	202011235033.6	申请日：	2020-11-08
公开（公告）号：	CN112347053A	公开（公告）日：	2021-02-09
发明（设计）人：	汤健;王天峥;周晓钟;王丹丹	申请（专利权）人：	北京工业大学
主分类号：	G06F16/16	分类号：	G06F16/16;G06F16/172
代理公司：	北京思海天达知识产权代理有限公司 11203	代理人：	吴荫芳
地址：	100124 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于递归提取复杂文件数据包差异性方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开一种基于递归提取的复杂文件数据包差异性比对方法，其包括基于遍历递归的文件及文件夹信息提取模块、基于存储路径节点的文件归类数据统计与目录树生成模块、文件统计数据与目录树嵌合模块和差异性递归比对模块。本发明将镜像数据包与参考数据包相比对，经过本申请中各个模块的提取与整合，最终能够比对出两个数据包中不一致的部分，并加以标记提醒。

技术领域

本发明涉及一种基于递归提取的复杂文件数据包差异性比对方法。

背景技术

在当今信息社会发展下，智能设备在使用中形成了大量信息文件。针对信息清除、电子信息取证等行业，能够快速地比对出两个数据包中的不同信息尤为重要。由于数据包中所包含的文件名、文件类型、文件大小和文件存储路径等信息的差异性，很难找到一种通用的、自动化的方式实现比对。目前，大多依靠从业人员人工比对两个数据包中的不同信息。这种方法不仅耗费人力财力，更有可能由于人员的疏忽从而导致重要信息遗漏。

为了能够自动便捷的比对出两个数据包中的差异信息并实现其可视化，本申请提出了一种基于递归提取策略，提取数据包中的详细信息形成含统计数据的目录树，并通过差异性递归比对模块比对两个含统计数据的目录树中各个节点信息的差异化程度，以达到两个数据包中差异信息比对的完全性。

发明内容

本发明提出了基于递归提取的复杂文件数据包差异性比对方法，其包括基于遍历递归的文件及文件夹信息提取模块、基于存储路径节点的文件归类数据统计与目录树生成模块、文件统计数据与目录树嵌合模块和差异性递归比对模块。目的在于将镜像数据包与参考数据包相比对，经过本申请中各个模块的提取与整合，最终能够比对出两个数据包中不一致的部分，并加以标记提醒。

首先，将参考数据包注入基于遍历递归的文件及文件夹信息提取模块，根据文件和文件夹两种类型提取得到参考数据包文件信息列表和参考数据包文件夹存储路径信息列表；接着，将获得的参考数据包文件信息列表和参考数据包文件夹存储路径信息列表注入基于存储路径节点的文件归类数据统计与目录树生成模块，统计得到基于文件存储路径的文件归类统计数据和生成出目录树；然后，再利用文件统计数据与目录树嵌合模块将二者结合起来，形成参考数据包归类统计数据目录树，同样，将镜像数据包通过以上模块进行提取、生成和整合，形成镜像数据包归类统计数据目录树；最后利用差异性递归比对模块比对获得参考数据包归类统计数据目录树和镜像数据包归类统计数据目录树之间存在的差异，并及时的标记以形成差异化比对结果。

附图说明

图1基于递归提取的复杂文件数据包差异性比对方法结构图；

图2基于遍历递归的文件及文件夹信息提取模块流程图；

图3文件夹递归策略示意图；

图4遍历递归提取过程流程图；

图5基于存储路径节点的文件归类数据统计过程；

图6目录树生成过程；

图7文件统计数据与目录树嵌合过程；

图8差异性递归比对过程。

具体实施方式

本申请提出了基于递归提取的复杂文件数据包差异性比对方法，其包括基于遍历递归的文件及文件夹信息提取模块、基于存储路径节点的文件归类数据统计与目录树生成模块、文件统计数据与目录树嵌合模块和差异性递归比对模块，其结构图如图1所示。

(1)基于遍历递归的文件及文件夹信息提取模块