[发明专利]一种数据指纹检测方法、装置及存储介质在审
申请号: | 202010576124.X | 申请日: | 2020-06-22 |
公开(公告)号: | CN111949652A | 公开(公告)日: | 2020-11-17 |
发明(设计)人: | 娄婷;段净化 | 申请(专利权)人: | 联想(北京)有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/242;G06F16/2455 |
代理公司: | 北京乐知新创知识产权代理事务所(普通合伙) 11734 | 代理人: | 周伟 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 指纹 检测 方法 装置 存储 介质 | ||
本发明公开了一种数据指纹检测方法、装置及存储介质。该方法采用变化记录表来记录每一数据分块在一段时间内发生变化的历史信息,在符合某一条件时,根据预设的磨损因子对变化记录表进行磨损处理;检测磨损处理后的变化记录表是否存在与预设的聚合段因子对应且满足聚合条件的可合并表项,若存在,则将可合并表项所对应的至少两个数据分块合并为一个数据分块。如此,可以根据每一数据变换的次数或频率等信息,动态的合并不经常变化的数据分块,减少了数据分块的数量,也相应地减少了要处理的数据指纹的数量,从而进一步降低了资源的消耗,并大大提高了系统的处理能力和吞吐量。
技术领域
本发明涉及数据处理领域,尤其涉及一种数据指纹检测方法、装置及存储介质。
背景技术
随着数据处理技术和网络传输能力的不断发展,大文件甚至是超大文件的存储和传输变得越来越普遍。对于大文件特别是超大文件来说,通过比较数据指纹来进行差分备份和传输就显得尤为重要,不仅可以大大减少传输带宽,还可以提高文件存储系统的处理能力
在现有方案中,无论文件大小,通常采用固定大小对大文件进行分块,并为每个数据分块建立数据指纹。
本发明人发现,对于某些大文件来说,虽然该文件很大,但经常变化的部分却很集中。此时,如果仍采用固定大小对大文件进行分块,则在每次备份或传输时,即使绝大部分的数据分块是不变的,但仍需逐一比较每一数据分块的数据指纹,不仅要花费较长的时间,也会消耗大量的计算机资源。
由此可见,如何改进上述大文件的分块策略,提高指纹数据的处理效率是一个尚待解决的技术问题。
发明内容
针对以上问题,本发明人创造性地想到:在这种情况下,如果能精确定位经常变化的数据,将不经常变化的数据分块进行合并,就可以大大减少分块的数量,从而缩短数据指纹对比的时间,节约对比数据指纹需要的资源。
基于以上发明思路,本发明人提供了一种数据指纹检测方法、装置及存储介质。
根据本发明实施例第一方面,一种数据指纹检测方法,该方法包括在符合第一条件时,执行以下操作:获取所有数据分块的第一变化记录表,第一变化记录表的每一表项记录了每一数据分块在一段时间内发生变化的历史信息,每一数据分块对应一个数据指纹;根据预设的磨损因子对第一变化记录表进行磨损处理得到第二变化记录表;检测第二变化记录表是否存在与预设的聚合段因子对应、且满足聚合条件的可合并表项,若存在,则将可合并表项所对应的至少两个数据分块合并为一个数据分块。
根据本发明实施例一实施方式,在符合第一条件之前,该方法还包括:获取待差分处理的文件;对文件进行分块得到数据分块;创建第一变化记录表,其中第一变换记录表的每一表项对应于每一数据分块,用于记录每一数据分块在一段时间内发生变化的历史信息。
根据本发明实施例一实施方式,在创建第一变化记录表之后,该方法还包括在对文件进行差分处理时,执行以下操作:获取所有数据分块的第一数据指纹,第一数据指纹是与每一数据分块对应的最新的数据指纹;获取所有数据分块的第二数据指纹,第二数据指纹是与每一数据分块对应的上一次存储的数据指纹;检测每一数据分块的第一数据指纹和第二数据指纹是否相同,若不同,则更新第一变化记录表中相应数据分块所对应的表项。
根据本发明实施例一实施方式,更新第一变化记录表中相应数据分块所对应的表项,包括:获取相应数据分块所对应的所有表项;依次更新所有表项中的每一表项。
根据本发明实施例一实施方式,第一变换记录表的每一表项用于记录每一数据分块在一段时间内发生变化的历史信息,包括:第一变换记录表的每一表项用于记录每一数据分块在一段时间内发生变化的次数;相应地,更新数据分块所对应的表项,包括:使表项所记录的次数加一。
根据本发明实施例一实施方式,第一条件包括到达预定时间。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于联想(北京)有限公司,未经联想(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010576124.X/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置