[发明专利]一种基于统一采样的快速相似数据检测方法有效

申请号：	201910243356.0	申请日：	2019-03-28
公开（公告）号：	CN110083743B	公开（公告）日：	2021-11-16
发明（设计）人：	夏文;王轩	申请（专利权）人：	哈尔滨工业大学（深圳）
主分类号：	G06F16/901	分类号：	G06F16/901;G06F16/903
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	王学强
地址：	518000 广东省深圳市南***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于统一采样快速相似数据检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于统一采样的快速相似数据检测方法，其特征在于，包括以下步骤：

A、基于滑动窗口算法快速计算哈希集合；在步骤A中，基于快速滑动哈希算法，计算出得滑动指纹集{F₁,F₂,……,F_N}；

B、对计算得出的哈希集合进行快速统一采样；步骤B中的快速统一采样为：统一判断步骤A计算出来的当前滑动窗口的指纹值fp_i的前X1个比特位或者是后X1个比特位或者是中间X1个比特位是否为X2，如果为X2，则进入采样集合，X1、X2均为设定值；采样得出新的哈希集合{Z₁,Z₂,……,Z_X}，该集合的成员数远远小于原始滑动指纹集大小N；

其中，

在步骤B后，进行以下过程：基于采样后的哈希集合，再提取特征值和超级特征值用于相似性匹配查找；

还包括以下步骤：

C、对采样后的哈希集合，进行M次线性变换，获得M个新的集合，并基于计算最大值原则，每个集合提取出一个特征值；

D、对特征值进行超级特征值打包，并向已经存在的超级特征值索引库里面进行查找匹配；

E、如果有一个超级特征值匹配，则认为数据块相似，进一步差量压缩编码处理以及存储；对于未匹配的数据块，则将相应的数据块存入存储系统，同时将对应的超级特征值写入超级特征值索引库。

2.根据权利要求1所述的基于统一采样的快速相似数据检测方法，其特征在于：在步骤A中，快速滑动哈希算法为：通过一个32/64位的整形数数组放大数据字节内容，实现哈希散列的效果，同时满足滑动哈希算法要求，即当前窗口的哈希值可以基于上个窗口哈希值快速算出。

3.根据权利要求2所述的基于统一采样的快速相似数据检测方法，其特征在于：快速滑动哈希算法的核心计算策略如下：fp_i＝(fp_i-1＜＜1)^G[b]，其中，G指一个预先算好的固定随机数组，可以对每个字节映射到一个很大随机数；fp_i-1就是当前滑动窗口的上一个窗口的指纹值；b就是当前滑动窗口的最后一个字节的内容。

4.根据权利要求1所述的基于统一采样的快速相似数据检测方法，其特征在于：X1设定为1或者2或者3或者4。

5.根据权利要求1所述的基于统一采样的快速相似数据检测方法，其特征在于：在步骤C中，每个集合提取出一个特征值，即最大值或者最小值，特征值的计算公式如下，

其中，特征值又称相似性特征值，Feature_i指的就是相似性特征值，FastHash(W_j)表示滑动窗口W_j的FastHash指纹，m_i和a_i表示预定的随机数；在这里数据块的长度为N，所以该数据块有N个滑动窗口，相似性特征值Feature_i就是在这N个滑动窗口的FastHash指纹中取哈希最大值，不同预定值m_i和a_i会产生不同相似性特征值；

在步骤D中，超级特征值的计算公式如下，

SuperFearture_k＝Hash(Feature₁,Feature₂,...)，

其中，SuperFeature_k指的是超级特征值。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学（深圳），未经哈尔滨工业大学（深圳）许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910243356.0/1.html，转载请声明来源钻瓜专利网。

上一篇：一种视频查询方法和装置
下一篇：一种基于知识图谱的教学问题诊断方法及系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于统一采样的快速相似数据检测方法有效

专利文献下载