[发明专利]将去除了重复的数据打包到有限大小容器中的方法和系统在审
申请号: | 201310242409.X | 申请日: | 2013-06-19 |
公开(公告)号: | CN103514247A | 公开(公告)日: | 2014-01-15 |
发明(设计)人: | M·海尔什;T·卡罗斯 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 11038 | 代理人: | 吴信刚 |
地址: | 美国*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 除了 重复 数据 打包 有限 大小 容器 中的 方法 系统 | ||
1.一种使用处理器装置将去除了重复的数据打包到多个有限大小容器中的方法,包括:
计算去除了重复的数据的多个相似比较文件之间的相似性分数;以及
使用该相似性分数将去除了重复的数据的所述多个相似比较文件分组成子集,用于使每个所述子集从去除重复系统离台到所述多个有限大小容器中的一个。
2.根据权利要求1所述的方法,还包括在创建去除了重复的数据的所述多个相似比较文件的摄取时间,将去除重复系统中之前去除重复的数据文件与进入去除重复系统中要被去除重复的新数据文件进行比较。
3.根据权利要求1所述的方法,其中,计算相似性分数还包括,计算去除了重复的数据的所述多个相似比较文件之间共享的共同数据交集的第n百分数阈值,其中确定去除了重复的数据的所述多个相似比较文件之间的传递闭包。
4.根据权利要求3所述的方法,还包括使用所述传递闭包以帮助使用相似性分数将去除了重复的数据的所述多个相似比较文件分组成子集。
5.根据权利要求4所述的方法,还包括通过遍历每个所述子集以确定所述多个有限大小容器中的一个的要求存储空间来计算存储度量值。
6.根据权利要求3所述的方法,还包括在文件相似性索引中保持所述多个相似比较文件中的每个的标识以及针对所述多个相似比较文件中的每个计算的相似性分数。
7.根据权利要求1所述的方法,还包括接收要将所述多个相似比较文件中的哪些分组成子集用于使每个所述子集从去除重复系统离台到所述多个有限大小容器中的一个的用户指示。
8.一种用于在计算环境中将去除了重复的数据打包成多个有限大小容器的系统,包括:
处理器装置,在计算环境中可操作,其中至少一个处理器装置适于:
计算去除了重复的数据的多个相似比较文件之间的相似性分数;以及
使用该相似性分数将去除了重复的数据的所述多个相似比较文件分组成子集,用于使每个所述子集从去除重复系统离台到所述多个有限大小容器中的一个。
9.根据权利要求8所述的系统,其中,处理器装置还适于在创建去除了重复的数据的所述多个相似比较文件的摄取时间,将去除重复系统中之前去除重复的数据文件与进入去除重复系统中要被去除重复的新数据文件进行比较。
10.根据权利要求8所述的系统,其中,为了计算所述相似性分数,处理器装置还适于计算去除了重复的数据的所述多个相似比较文件之间共享的共同数据交集的第n百分数阈值,其中确定去除了重复的数据的所述多个相似比较文件之间的传递闭包。
11.根据权利要求10所述的系统,其中,处理器装置还适于使用所述传递闭包以帮助使用相似性分数将去除了重复的数据的所述多个相似比较文件分组成子集。
12.根据权利要求11所述的系统,其中处理器装置还适于通过遍历每个所述子集以确定所述多个有限大小容器中的一个的要求存储空间来计算存储度量值。
13.根据权利要求10所述的系统,其中,处理器装置还适于在文件相似性索引中保持所述多个相似比较文件中的每个的标识以及针对所述多个相似比较文件中的每个计算的相似性分数。
14.根据权利要求8所述的系统,其中,处理器装置还适于接收要将所述多个相似比较文件中的哪些分组成子集用于使每个所述子集从去除重复系统离台到所述多个有限大小容器中的一个的用户指示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310242409.X/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置