[发明专利]一种PDF文件去重存储方法及系统有效
申请号: | 201911221955.9 | 申请日: | 2019-12-03 |
公开(公告)号: | CN111177082B | 公开(公告)日: | 2023-06-09 |
发明(设计)人: | 鲍建涛 | 申请(专利权)人: | 世强先进(深圳)科技股份有限公司 |
主分类号: | G06F16/16 | 分类号: | G06F16/16;G06F16/11 |
代理公司: | 深圳市瑞方达知识产权事务所(普通合伙) 44314 | 代理人: | 郭方伟 |
地址: | 518000 广东省深圳市龙岗区坂田街道雪岗路*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 pdf 文件 存储 方法 系统 | ||
本发明涉及一种PDF文件去重存储方法及系统。该存储方法包括读取待存PDF文件的待存特征值;逐级判断是否记录有与所述待存特征值相匹配的已存特征值,若否,则存储所述待存PDF文件并更新所述已存特征值的记录。本发明中,通过读取待存PDF文件的待存特征值,并比对该待存特征值是否与已存特征值相匹配的方法,来判断该待存PDF文件与已存PDF文件是否相同,并在当该待存PDF文件与已存PDF文件不相同时,存储该待存PDF文件。实现了只存储不相重复的PDF文件,节约了文件存储资源,而且,避免使用者浏览重复的文件,提升用户体验。
技术领域
本发明涉及数据处理领域,更具体地说,涉及一种PDF文件去重存储方法及系统。
背景技术
随着信息时代的不断发展,人们在学习知识、交流信息时,也逐渐选择采用电子文件的方式进行,在众多格式类型的电子文件中,由于PDF格式的电子文件具有内容不易修改性、经过缩放不会变形的高保真性等特点,被越来越多的使用者选择。
伴随着PDF格式文件数量的不断增多,同时也出现了在存储的多个PDF文件中,存在着两文件的文件名不同、但内容相同,或两文件的文件名相同、但内容不同的情况,给人们的知识学习、信息交流带来困扰以及不便,同时也造成存储资源浪费。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述难以分辨所存储的PDF文件是否相同的缺陷,提供一种PDF文件去重存储方法及系统。
本发明解决其技术问题所采用的技术方案是:构造一种PDF文件去重存储方法,包括:
S1:读取待存PDF文件的待存特征值;
S2:逐级判断是否记录有与所述待存特征值相匹配的已存特征值,若否,则执行步骤S3;
S3:存储所述待存PDF文件并更新所述已存特征值的记录。
优选的,所述待存特征值包括待存PDF文件流的MD5码;
所述步骤S2中的逐级判断包括:
S21:判断是否记录有与所述待存PDF文件流的MD5码相同的已存特征值,若有,则执行步骤S29;
S29:删除所述待存PDF文件。
优选的,所述待存特征值还包括待存PDF文件中文字内容的MD5码;
在所述步骤S21中,当未找到与所述待存PDF文件流的MD5码相同的已存特征值的记录时,所述步骤S2中的逐级判断还包括:
S22:判断是否记录有与所述待存PDF文件中文字内容的MD5码相同的已存特征值,若有,则执行步骤S23;
S23:判断所述已存特征值对应的文件中其它内容与所述待存PDF文件中其它内容是否相同,若相同,则执行所述步骤S29。
优选的,所述待存特征值还包括待存PDF文件中文字内容的SIMHASH码以及待存PDF文件的页数;
所述步骤S22中,当未找到与所述待存PDF文件中文字内容的MD5码相同的已存特征值,或所述步骤S23中,当判断所述已存特征值对应的文件中其它内容与所述待存PDF文件中其它内容不相同时,所述步骤S2中的逐级判断还包括:
S24:判断是否记录有与所述待存PDF文件中文字内容的SIMHASH码的海明距离在预设范围内的已存特征值,若有,则执行步骤S25;
S25:判断所述已存特征值对应的文件的页数与所述待存PDF文件的页数是否相同,若相同,则执行步骤S26,并进一步判断;
S26:将对应的已存特征值存储至疑似重复区;其中,所述对应的已存特征值为与所述待存PDF文件中文字内容的SIMHASH码的海明距离在预设范围内的所述已存特征值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于世强先进(深圳)科技股份有限公司,未经世强先进(深圳)科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911221955.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种三维坐标转换方法
- 下一篇:一种自然语言处理的算法