[发明专利]一种面向海量数据相似度检测的指纹高速缓存方法有效
申请号: | 202011342650.6 | 申请日: | 2020-11-25 |
公开(公告)号: | CN112329717B | 公开(公告)日: | 2023-08-01 |
发明(设计)人: | 付松龄;丁滟;黄辰林 | 申请(专利权)人: | 中国人民解放军国防科技大学;湖南师范大学 |
主分类号: | G06V40/12 | 分类号: | G06V40/12;G06V10/74;G06V10/762;G06F16/2455 |
代理公司: | 湖南兆弘专利事务所(普通合伙) 43008 | 代理人: | 胡君 |
地址: | 410073 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 海量 数据 相似 检测 指纹 高速缓存 方法 | ||
本发明公开一种面向海量数据相似度检测的指纹高速缓存方法,步骤包括:S01.配置两级缓存,其中一级缓存用于缓存上层指纹、二级缓存用于缓存下层指纹,下层指纹包括将数据指纹聚类形成的多个指纹簇,上层指纹包括各指纹簇的聚类中心;步骤S02.当接收到新数据指纹时,查找目的聚类中心,根据新数据指纹与目的聚类中心中最近指纹之间的距离判断是否存在相似的指纹,如果不存在转入步骤S03;步骤S03.将新数据指纹作为新的聚类中心缓存至一级缓存中,或缓存至二级缓存中对应的指纹簇中。本发明能够适用于海量数据实现指纹相似度检测以及缓存,且具有实现方法简单、缓存效率高且灵活性强等优点。
技术领域
本发明涉及海量数据指纹缓存技术领域,尤其涉及一种面向海量数据相似度检测的指纹高速缓存方法。
背景技术
在数据存储与共享平台中会面临大量的数据版权归属识别等问题,如考虑如下应用场景:用户A独立撰写一份文档上传到数据共享平台中,其他用户均可自由下载该文档;用户B下载该文档后做了少量修改(甚至如仅仅增加或删除一个空格),当用户B将修改后的文档上传到系统中时,系统需要识别新文档的所有权归属于哪个用户。当数据量急剧增大时,相应的需要进行大量的所有权归属识别操作,因而对于面向海量数据的存储及共享平台而言,要实现数据版权保护是一个具有挑战性的难题。
数据相似度检测是实现数据版权保护的一项关键技术。目前数据相似度检测通常是先采用特定算法生成能反应数据具体内容的指纹信息,比如局部敏感hash算法simhash、top k最长句子签名算法等;然后使用距离算法(如海明距离算法、欧氏距离算法和夹角余弦算法等)计算指纹之间的距离,并以距离的远近作为数据是否相似的判断依据,指纹距离越近则所对应的数据越相似,反之,指纹距离越远则所对应的数据越不同。
现有技术中采用上述数据相似度检测方法实现数据版权保护的具体步骤如下:
第一步:用户上传新数据。
第二部:系统调用特定算法生成能反映新数据具体内容的指纹。
第三步:获取系统中已有的所有指纹,计算第二步生成的指纹与系统已有的每一个指纹之间的距离:如果系统中已经存在距离较近的指纹,则认为新上传的数据与已有数据是相似的,判定该数据是数据版权不合法;反之,如果系统中不存在距离较近的指纹,则认为新上传的数据版权合法。
但是采用上述数据相似度检测方法,需要执行大量的指纹距离计算,如上述方法中的第三步,需要一一计算新指纹与系统所有指纹的距离,使得检测效率较低,尤其是当面对海量数据的检测时,会大大降低检测效率。
发明内容
本发明要解决的技术问题就在于:针对现有技术存在的技术问题,本发明提供一种实现方法简单、缓存效率高且灵活的面向海量数据相似度检测的指纹高速缓存方法,能够大大提高数据相似度检测的效率。
为解决上述技术问题,本发明提出的技术方案为:
一种面向海量数据相似度检测的指纹高速缓存方法,步骤包括:
步骤S01.两级缓存配置:配置两级缓存,其中一级缓存用于缓存上层指纹、二级缓存用于缓存下层指纹,所述下层指纹包括将数据指纹聚类形成的多个指纹簇,所述上层指纹包括各所述指纹簇的聚类中心;
步骤S02.相似度检测:当接收到新数据指纹时,从所述一级缓存中查找与新数据指纹距离在指定范围内的目的聚类中心,并从各目的聚类中心中查找与所述新数据指纹距离最近的聚类中心以及最近的数据指纹,得到最近聚类中心以及最近指纹;根据所述新数据指纹与所述最近指纹之间的距离判断是否存在与所述新数据指纹相似的指纹,如果判断为不存在转入步骤S03;
步骤S03.指纹缓存:根据所述新数据指纹与所述最近聚类中心之间的距离,将新数据指纹作为新的聚类中心缓存至所述一级缓存中,或将新数据指纹缓存至所述二级缓存中对应所述最近聚类中心的指纹簇中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学;湖南师范大学,未经中国人民解放军国防科技大学;湖南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011342650.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种环保型聚氨酯防水涂料及其制备装置
- 下一篇:用于生成信息的方法和装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置