[发明专利]一种基于相似性的文件分类方法有效
申请号: | 201210537471.7 | 申请日: | 2012-12-12 |
公开(公告)号: | CN103049263A | 公开(公告)日: | 2013-04-17 |
发明(设计)人: | 王芳;冯丹;陈俭喜;杜鑫;郑超 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06F9/44 | 分类号: | G06F9/44;G06F17/30 |
代理公司: | 华中科技大学专利中心 42201 | 代理人: | 方放 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于相似性的文件分类方法,属于计算机存储系统领域,解决现有分类方法计算量和内存占用较大的问题。本发明包括分块步骤、计算校验和步骤、统计步骤和分类步骤。本发明对文件数据的处理不需要随机读写,只需要从头到尾的进行一次处理,就可以完成分块,计算校验和,统计,排序以及最终确定分类所有步骤;可以高效的获取文件间的关联信息,将在二进制数据层面上相似的文件划归为一类,对文件给出所属类别的唯一标识,在判定两个文件是否相似时,只需要判断它们所属类别的标识是否相同即可,处理速度快,占用内存少,可以通过运行参数调整判定精度;适用于各类需要获取数据相似性的应用,特别面向存储、数据去重的相关应用。 | ||
搜索关键词: | 一种 基于 相似性 文件 分类 方法 | ||
【主权项】:
一种基于相似性的文件分类方法,包括下述步骤:(1)分块步骤,包括下述子步骤:(1.1)将文件字节流上的开始与结束位置作为两个分界点,将一个窗口的后沿置于文件字节流的开始位置上,利用哈希函数计算窗口内字节的哈希值,所述窗口长度L0为4字节~1024字节;所述哈希函数的散列空间不大于设定的块最大字节数P,P=128~8192;(1.2)判断所述哈希值与预定值是否相同,是则进行子步骤(1.3),否则转子步骤(1.4),所述预定值从所述哈希函数的值域中任意选择一个;(1.3)将窗口的前沿所在字节作为当前分界点,判断当前分界点与前一个分界点之间的字节数是否小于设定的块最小字节数,是则忽略当前分界点,执行子步骤(1.4),否则执行子步骤(1.5),所述块最小字节数为8~P;(1.4)将所述窗口沿文件字节流滑动一个字节,判断窗口前沿与前一个分界点之间的字节数是否达到设定的块最大字节数P,是则把窗口前沿设定为当前分界点,执行子步骤(1.5),否则计算窗口内字节的哈希值,转子步骤(1.2);(1.5)将当前分界点与前一个分界点之间的字节作为一个块,记为当前块,将窗口后沿置于文件字节流上当前分界点的下一个字节处,执行步骤(2);(2)计算校验和步骤:计算检验和s,并将其保存在临时校验和结果集中,s=a+216b,其中,a、b为中间参数: a = ( Σ i = 1 L 1 x i ) mod M , b = ( Σ i = 1 L 1 ( L 1 - i - 1 ) x i ) mod M , L1为当前块长度,xi表示当前块中的第i个字节,1≤i≤L1,M为大于215且小于232的整数;重复执行步骤(1)和步骤(2),直至计算完文件字节流的最后一个块的校验和;(3)统计步骤,包括下述子步骤:(3.1)统计各个相同校验和出现的次数;(3.2)按相同校验和出现次数从多到少,对所有校验和进行排序,形成校验和序列,相同校验和在校验和序列中仅出现一次;(4)分类步骤,包括下述子步骤:(4.1)判断校验和序列中的校验和数目是否大于或等于设定的取样数N,是则执行子步骤(4.2),否则分类失败,返回分类失败提示;N=1~10,取样数越大,分类精度越高,但系统开销越大,反之亦然;(4.2)在所述校验和序列中取前N个校验和,计算其指纹值,将该指纹值作为文件所属类别标识。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210537471.7/,转载请声明来源钻瓜专利网。