[发明专利]使用对等节点图的基于流的数据去重复在审
申请号: | 201380073750.5 | 申请日: | 2013-12-24 |
公开(公告)号: | CN105074688A | 公开(公告)日: | 2015-11-18 |
发明(设计)人: | F·T·雷顿;A·F·坎佩恩;C·E·盖罗;G·坡佳尼 | 申请(专利权)人: | 阿卡麦科技公司 |
主分类号: | G06F17/00 | 分类号: | G06F17/00;G06F17/30 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 11038 | 代理人: | 袁玥 |
地址: | 美国马*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 对等 节点 基于 数据 重复 | ||
技术领域
本申请一般涉及在网络上的数据通信。
背景技术
分布式计算机系统在本领域是众所周知的。一个这种分布式计算机系统是通常由服务提供者操作和管理的“内容分发网络”或者说“CDN”。服务提供者通常代表使用服务提供者的共享基础设施的第三方(用户)来提供内容分发服务。该类型的分布式系统有时被称作“覆盖网络”,并且通常指的是一群通过一个或多个网络链接的自治计算机,连同设计为便于诸如内容分发、应用加速或者对外包源站点基础设施的其他支持之类的各种服务的软件、系统、协议和技术。CDN服务提供者通常通过设置在用户门户中并且随后被部署到网络的数字资产(诸如网站)来提供服务分发。
数据区分是用来在服务器和客户端之间利用资源的共享先前实例(在压缩术语中也被称为共享字典内的数据版本)的已知技术和方法;该处理通过仅发送自那一个或多个先前实例起已经发生的差异或者变化来工作。数据区分与压缩有关,但却是略微不同的概念。具体而言,直观上,差异(“diff”)是一种形式的压缩。只要接收者具有与发送者相同的原始文件,那个发送者就可以给予接收者diff而非整个新文件。Diff实际上解释了如何从旧文件创建新文件。差异通常比整个新文件小得多,因而是一种形式的压缩。文档的第一版和该同一文档的第二版之间的diff是数据差异;数据差异是使用文档的第一版作为预设字典来压缩文档的第二版的结果。
基于流的数据去重复(“dedupe”)系统在本领域也是已知的。一般而言,基于流的数据去重复系统通过检查流经连接的发送对等体的数据并且用指向每一个对等体已经围绕给定块进行了同步的共享字典的引用来替换该数据的块而工作。引用本身比数据小得多,并且经常是其散列或者指纹。当接收对等体接收到修改后的流时,其用原始数据来替换引用以使流重新变得完整。例如,考虑其中指纹是用单个字母变量表示的唯一散列的系统。发送对等体的字典然后可能看起来像图3中所示一样。接收对等体的字典可能看起来像图4中所示一样。然后,例如,如果发送对等体假设要发送诸如“Hello,howareyou?AkamaiisAwesome!”之类的字符串,则去重复系统将代替地处理该数据并且发送以下消息:“He[X]reyou?[T][M]ome!”。接收对等体使用其字典来解码该消息。注意到,在该示例中,发送对等体未用引用[O]来替换“ome!”。这是因为,尽管发送对等体将指纹和块存储在其高速缓存中,但是那个发送对等体(通过一种机制)知道接收对等体没有将指纹和块存储在其高速缓存中。因此,发送对等体在发送消息之前未在消息中插入该引用。这种类型的系统通常以若干已知方法中的一种来填充对称的字典。在一种方法中,在数据流流经数据处理器时以固定长度块(例如,每一个块在长度上是15个字符)填充字典数据。数据首次通过发送对等体和接收对等体两者时,并且假定它们两者都以相同方式构造字典,则两个对等体最后具有包含相同条目的字典。然而该方法不是最佳的,因为其经受称为“移位”问题的问题,该问题会不利地影响所生成的指纹并且破坏整个方案。
替代方法利用使用以滚动方式计算的散列的可变长度块。在基于称为Rabin指纹计算的技术的公知解决方案中,系统在指纹计算过程期间跨数据流滑动具有特定尺寸(例如,48字节)的窗口。该技术的一种实现方式在Muthitacharoen等人的题为“ALow-BandwidthNetworkFileSystem”(LBFS)的论文中进行了描述,并且该结果实现了可变尺寸的抗移位块。
提供基于流的数据去重复产品和服务的当前供应商通过配对设备解决了字典发现(知道什么信息在对等体的字典中)的问题。因此,例如,设备/盒供应商依赖于一对设备或每一端上的进程来相互通信以保持让每一侧知道在配对的对等体中存在什么引用的表格。然而,这种类型的解决方案仅在处理代表“路径内”的对的个体盒和单元时起作用。
然而,路径内配对解决方案在节点的分布更类似树的诸如CDN之类的覆盖网络的情况下是不实用的。因此,例如,在代表性实现方式中,并且关于特定源服务器(或者,更一般而言,位于“根”处的“租户”),该覆盖可以具有更接近根的父层服务器,以及更接近叶节点的客户端边缘服务器。换言之,代替需要知道一个或多个对等体盒的一个小集合的盒(诸如在已知的盒供应商解决方案中),父层服务器可能需要与各自潜在包含许多服务器的数十、数百乃至数千个边缘区域接触。在这种情况下,每个机器的表格无法进行扩展。
因此,在覆盖网络的情况下仍然需要提供用于数据去重复的增强技术。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿卡麦科技公司,未经阿卡麦科技公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201380073750.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于监测生物测定数据的系统和方法
- 下一篇:用于创建和共享任务的系统和方法