[发明专利]一种未知格式加密文件的识别方法有效
申请号: | 201510151456.2 | 申请日: | 2015-04-01 |
公开(公告)号: | CN104750675B | 公开(公告)日: | 2017-09-26 |
发明(设计)人: | 王继志;杨光;陈丽娟;杨英 | 申请(专利权)人: | 山东省计算中心(国家超级计算济南中心) |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 济南诚智商标专利事务所有限公司37105 | 代理人: | 王汝银 |
地址: | 250014 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 未知 格式 加密 文件 识别 方法 | ||
技术领域
本发明涉及文件识别技术领域,具体地说是一种未知格式加密文件的识别方法。
背景技术
在计算机取证领域,犯罪嫌疑人往往把重要的犯罪证据进行加密存储,并且变换文件格式。当取证人员获得犯罪嫌疑人存储犯罪证据的磁盘,需要在海量文件中快速找到这些加密过的文件,然后采用密码破解的方法来破解这些加密文件,从而获取犯罪嫌疑人的犯罪证据。
然而对于任意格式的文件,如何自动化判定一个文件是否经过加密处理不是一件容易的事情。目前在计算机取证领域,对于一个文件是否加密,一般有两种方法。一种方法是取证人员手工判断,例如手工打开一个Word文件,如果需要输入密码,则该Word文件是加密过的,否则可以直接打开;另一种方法是针对特定的文件类型,例如Word文件,若一个Word文件是加密过的,则在文件头中有一个加密标志被置为1,这样可以通过程序自动化判断该加密标志是否为1,则可以自动化判断该Word文件是否加密。很显然,前一种方法效率很低,费时费力,无法一一检查海量的文件;而后一种方法,只能针对特定的文件格式,如果攻击者有意识的更改文件格式,则很容易骗过这种判定方法,导致无法进行有效判定加密文件。
目前的加密文件判定方法很难对计算机取证领域中遇到的海量的多种格式的文件是否经过加密进行自动判定,因此,迫切需要一种在不知道文件格式情况下能够对文件是否经过加密处理进行判定的技术。
发明内容
针对上述不足,本发明提供了一种未知格式加密文件识别方法,其能够在不知道文件格式的情况下对任意格式文件是否加密进行自动化识别判定,不仅能够对加密文件进行有效识别、判定效率高,而且可以避免人工进行判定而导致费时费力的问题,另外还提供了一种未知格式文件的数据提取方法和一种数据加密判定方法。
本发明解决其技术问题采取的技术方案是:一种未知格式加密文件的识别方法,其特征是,包括以下步骤:
S1:确定需要进行加密识别的任意格式文件,并标识为目标文件;
S2:对目标文件中的数据进行提取;
S3:对步骤S2所提取的数据进行判定,若判定为明文数据,则输出该文件是非加密文件的结果,若判定为加密文件,则输出该文件是加密文件的结果。
所述对目标文件中的数据进行提取过程包括以下步骤:
S21:以二进制格式打开目标文件;
S22:以二进制字节流的形式读取目标文件的内容,并将读取的目标文件内容存入缓存区,直至目标文件所有的内容读取完毕为止;
S23:关闭目标文件。
所述对所提取的数据进行判定的过程包括以下步骤:
S31:计算缓冲区中目标文件字节流的大小,以字节为单位,记为size,则将字节流中内容从第1个字节到第size个字节依次记为b1,b2,...,bsize;
S32:将b1,b2,...,bsize转化为无符号整数;
S33:按照下述公式计算均值μ:
S34:按照下述公式计算E:
S35:按照下述公式计算σ:
S36:按照下述公式计算R:
S37:比较R与预先设定的阀值f,如果R<f,则判定目标文件为加密过的文件,否则则判定目标文件为未加密过的文件。
所述阀值f为加密后文件字节之间的相关性。
本发明还提供了一种目标文件的数据提取方法,其特征是,包括以下步骤:
S21:以二进制格式打开目标文件;
S22:以二进制字节流的形式读取目标文件的内容,并将读取的目标文件内容存入缓存区,直至目标文件所有的内容读取完毕为止;
S23:关闭目标文件。
所述目标文件为确定需要进行加密识别的任意格式文件。
本发明还提供了一种目标文件的数据加密判定方法,其特征是,包括对未知格式文件的数据进行提取的过程和对所提取的数据进行判定的过程。
所述对未知格式文件的数据进行提取的过程包括以下步骤:
S21:以二进制格式打开目标文件;
S22:以二进制字节流的形式读取目标文件的内容,并将读取的目标文件内容存入缓存区,直至目标文件所有的内容读取完毕为止;
S23:关闭目标文件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东省计算中心(国家超级计算济南中心),未经山东省计算中心(国家超级计算济南中心)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510151456.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:语音传译装置、语音传译方法及语音传译程序
- 下一篇:页面文案的处理方法及装置