[发明专利]一种自主的文件一致性检验方法有效

专利信息
申请号: 202010806690.5 申请日: 2020-08-12
公开(公告)号: CN111753518B 公开(公告)日: 2021-03-12
发明(设计)人: 张玉启;任伟;王传安 申请(专利权)人: 深圳潮数软件科技有限公司
主分类号: G06F40/194 分类号: G06F40/194;G06F16/16
代理公司: 暂无信息 代理人: 暂无信息
地址: 518109 广东省深圳市龙*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 自主 文件 一致性 检验 方法
【说明书】:

一种自主的文件一致性检验方法,对于文件采用了“文件属性判断法”和“自定义校验函数判断法”来进行一致性检验,如果源端和目标端“文件不一致”,则重新传输、判断,直至“文件一致”。文件属性判断法通过判断源端和目标端文件的文件名称、文件长度和文件最后修改时间来实现。自定义校验函数判断法通过对源端文件和目标端文件长度判断、长度取模并分别取以2为底数的对数进行比对,从而判断是不是“文件一致”。可根据文件大小而应用文件属性判断法或自定义校验函数判断法来判断文件是否一致,而且文件大小阈值是可以设置的。

技术领域

发明涉及大数据、新一代信息技术领域,尤其是一种自主的文件一致性检验方法。

背景技术

随着5G、大数据、工业互联网、产业互联网、移动互联网、数字经济、数字产业化的推进,数据正变得越来越大,越来越多。数据是基础性资源,也是重要生产力。

在不断发展的过程中,会产生的各种数据,但是数据可以分为三类。

结构化数据:结构化的数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据。一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。结构化的数据的存储和排列是很有规律的,这对查询和修改等操作很有帮助。

半结构化数据:半结构化数据是结构化数据的一种形式,它并不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层。因此,它也被称为自描述的结构。半结构化数据,属于同一类实体可以有不同的属性,即使他们被组合在一起,这些属性的顺序并不重要。常见的半结构数据有日志、CSV、XML和JSON。

非结构化数据:顾名思义,就是没有固定结构的数据。各种文档、图片、视频/音频、电子邮件、合同,单据等都属于非结构化数据。对于这类数据,一般直接整体进行存储,而且一般存储为二进制的数据格式。

据世界权威机构统计表明,从2015年到2025年,中国数据以14倍的速度扩张。2018年至2025年中国数据以30%的年平均增长速度领先全球,比全球高3%,2025年将增至48.6ZB,占全球27.8%。通过调查发现,在存储的海量信息中,结构化数据仅占数据信息总量的9%,而非结构化数据却占数据信息总量的91%。

非结构化数据有一个特点,就是多数文件是复合存储文件,所谓复合存储文件,它们的特点是,数据的增加不是线性的,只要数据增加,文件结构就会被重新打破、重建。比如Word产生的文件、PowerPoint产生的演示文档等,只要文件有一丝变化,甚至只有一个字节的变化,整个文件的结构都会发生变化,全部会被“重写”。

数据的一致性和可用性很重要,因为备份时容易出错(尤其是大文件在备件时更容易出错),所以要进行一致性校验。如果目标端备份出来的文件与源端的原文件不一致,一般来说,其基本是不可用(除非有部分二进制文件,比如:MP3、视频等)。因为备份的文件就是用于在原文件丢失时恢复用的,而如果备份出来的文件不可用,就算恢复回去了,也是不能使用的,相当于数据丢失。

因此在非结构化数据备份时,一定要判断出源端和目标端文件是否“文件一致”,如果不一致,则需要重新传输、判断,直至“文件一致”。

现有情况下最接近技术的分析与对比。

目前,现有情况下最接近的技术方案为:申请公布号为 CN110096483A的《一种重复文件检测方法、终端和服务器》(下文简称“对比文件1”)和授权公告号为CN104408111B的《一种删除重复数据的方法及装置》(以下简称“对比文件2”)。

对比文件1与重复文件检测方法、终端和服务器相关,而对比文件2与删除重复数据的方法与装置相关,但是与本案有很大区别。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳潮数软件科技有限公司,未经深圳潮数软件科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010806690.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top