[发明专利]一种PDF文件去重存储方法及系统有效
申请号: | 201911221955.9 | 申请日: | 2019-12-03 |
公开(公告)号: | CN111177082B | 公开(公告)日: | 2023-06-09 |
发明(设计)人: | 鲍建涛 | 申请(专利权)人: | 世强先进(深圳)科技股份有限公司 |
主分类号: | G06F16/16 | 分类号: | G06F16/16;G06F16/11 |
代理公司: | 深圳市瑞方达知识产权事务所(普通合伙) 44314 | 代理人: | 郭方伟 |
地址: | 518000 广东省深圳市龙岗区坂田街道雪岗路*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 pdf 文件 存储 方法 系统 | ||
1.一种PDF文件去重存储方法,其特征在于,包括:
S1:读取待存PDF文件的待存特征值;
S2:逐级判断是否记录有与所述待存特征值相匹配的已存特征值,若否,则执行步骤S3;其中,所述已存特征值与所述待存特征值相匹配代表已存PDF文件与所述待存PDF文件相同或相似;所述逐级判断中,先通过特征值的匹配情况判断已存PDF文件与所述待存PDF文件是否相同,当判断不同时,再通过特征值的匹配情况判断已存PDF文件与所述待存PDF文件是否相似;
所述待存特征值包括待存PDF文件中文字内容的MD5码、待存PDF文件中文字内容的SIMHASH码以及待存PDF文件的页数;
所述判断已存PDF文件与所述待存PDF文件是否相似包括:
S22:判断是否记录有与所述待存PDF文件中文字内容的MD5码相同的已存特征值,若有,则执行步骤S23;若否,则执行步骤S24;
S23:判断所述已存特征值对应的文件中其它内容与所述待存PDF文件中其它内容是否相同,若相同,则执行步骤S29;若不相同,则执行步骤S24;
S24:判断是否记录有与所述待存PDF文件中文字内容的SIMHASH码的海明距离在预设范围内的已存特征值,若有,则执行步骤S25;
S25:判断所述已存特征值对应的文件的页数与所述待存PDF文件的页数是否相同,若相同,则执行步骤S26至步骤S28;
S26:将对应的已存特征值存储至疑似重复区;其中,所述对应的已存特征值为与所述待存PDF文件中文字内容的SIMHASH码的海明距离在预设范围内的所述已存特征值;
S27:判断疑似重复临时区是否存储有已存特征值,若有,执行步骤S28;
S28:人工比对所述已存特征值对应的文件与所述待存PDF文件是否相同,若相同,则执行所述步骤S29;否则,执行所述步骤S3;
S29:删除所述待存PDF文件;
S3:存储所述待存PDF文件并更新所述已存特征值的记录。
2.根据权利要求1所述的PDF文件去重存储方法,其特征在于:
所述待存特征值还包括待存PDF文件流的MD5码;
所述步骤S2中,逐级判断中判断已存PDF文件与所述待存PDF文件是否相同,包括:
S21:判断是否记录有与所述待存PDF文件流的MD5码相同的已存特征值,若有,则执行步骤S29;若否,则执行所述步骤S22。
3.根据权利要求1所述的PDF文件去重存储方法,其特征在于:
在所述步骤S23中,当判断所述已存特征值对应的文件中其它内容与所述待存PDF文件中其它内容不相同时,还包括:
执行所述步骤S26至所述步骤S28;
其中,所述对应的已存特征值为与所述待存PDF文件中文字内容的MD5码相同的所述已存特征值。
4.根据权利要求1所述的PDF文件去重存储方法,其特征在于:
所述预设范围包括预设值,所述预设值为3。
5.根据权利要求1所述的PDF文件去重存储方法,其特征在于:
所述步骤S3中还包括:
生成并记录所述待存PDF文件的文件编号以及文件存储路径。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于世强先进(深圳)科技股份有限公司,未经世强先进(深圳)科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911221955.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种三维坐标转换方法
- 下一篇:一种自然语言处理的算法