[发明专利]一种对等网络中分布无关的数据管理方法无效
申请号: | 201210426146.3 | 申请日: | 2012-10-31 |
公开(公告)号: | CN103793416A | 公开(公告)日: | 2014-05-14 |
发明(设计)人: | 周敏奇;钱卫宁;郭心语;周傲英 | 申请(专利权)人: | 华东师范大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海麦其知识产权代理事务所(普通合伙) 31257 | 代理人: | 董红曼 |
地址: | 200062 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 对等 网络 分布 无关 数据管理 方法 | ||
技术领域
本发明属数据库技术领域,具体涉及一种对等网络中分布无关的数据管理方法。
背景技术
对等网络系统起源于文件共享应用,近几年来已日渐成熟并应用于云计算系统中作可扩展、容错数据管理,例如Cassandra,Dynamo等等。许多研究问题(例如负载平衡分析、查询处理、数据挖掘)变得更加重要。考虑到对等网络系统的规模非常大,探究有效地管理分布在各节点上大量数据的方法是非常必要的。特别是在许多应用中,学习和理解全局数据分布尤为重要。
例如,在对等网络中,负载平衡是一个重要的问题。对等网络系统中的动态数据项和不正确的用户查询模式可能会导致严重的负载不平衡,增加用户响应时间。通过了解当前对等网络系统的全局数据分布,数据可以更加均匀地分布在系统的节点上。在对等网络系统中,不同的查询类型,例如范围查询、聚合查询和轮廓线查询等,也可以更有效地支持全球数据分布的信息。以聚合查询为例,知道在当前系统中的全球数据分布可以更有效地进行计算,例如,求和、求平均值和计数等等。在对等网络系统中,知道节点上的数据分布对聚类与分类等新兴应用也有很大的用处。
集中数据库上的数据密度估计已经得到了广泛地研究,例如分层抽样和基于直方图的抽样,但是在对等网络中估计数据密度仍存在一些困难,包括以下几个方面:
第一,在一组节点上维持全局数据索引代价是非常大的,但是如果没有全局数据很难准确估计数据密度。
第二,通过直接对对等网络系统中的节点抽样很难得到准确的估计,因为当一些新的节点加入到系统中或从系统中撤出时,稳定的抽样框架会被破坏掉,很难选择一个稳定的抽样框架进行估计。
第三,通过直接对索引键抽样很难得到准确的估计,因为他们收集和演化数据的概率是不相等的。
过去几年,提出了许多在数据估计方法。在集中数据库系统中,包括估计方法论在内的应用主要是查询选择性估计。基本上,它们可分为四类。
第一类,模型函数参数方法。给定数据分布模型,估计模型参数。这类方法可以获得较高的估计精度,但是该方法假定数据分布模型已知,所以并不适用于未知分布模型的数据密度估计。
第二类,多项式函数拟合数据分布曲线。这类方法可以对任意数据分布进行近似拟合,但是该方法存在着负值问题和舍入误差传递问题。
第三类,抽样估计。这类方法通过对数据抽样,进而估计数据的统计信息。但是对于不同的分布模型,需要不同的抽样方法才能获得近似的估计精度。同时也需要设置较高的抽样样本集才能获的较高的估计精度。
第四类,基于柱状图的非参数估计方法。这类方法有个假设前提,即假设数据在柱状图中各个柱上均匀分布。这样,基于这一均匀分布假设,估计出来的数据分布将会有较大偏差。
在对等网络环境中,考虑到网络的动态特性,估计当前网路状态下的数据分布会变得更加复杂。因为对等网络具有高度的动态性,每个时刻都会有节点的加入,退出和失效。同时伴随有大量数据的插入和删除操作。因此,在任一时间段内,网络中的数据分布都将发生较大的变化。在对等网络中网络带宽消耗是主要的考虑因素,所以选择基于抽样技术的估计。现有的估计方法分为三类。
第一类,通过马尔可夫链在网络节点中随机行走,进而随机选择网络中的节点。如果网络具有某种特定的结构,那么随机行走算法会以更高的概率走向一些静态的链接。
第二类,两层抽样方法。首先随机采集网络中的部分节点,接着在随机采集到的结点上对数据进行随机抽样。但是这个方法主要用于处理聚合操作,并且估计的准确度与数据分布具有依赖关系。
第三类,基于悄悄话(gossip-based)的通讯方法。当将该方法扩展到动态的对等网络系统中时,由于基于悄悄话方法本身的限制,会导致收敛时间过长。最后导致估计的数据密度已经过时。
发明内容
本发明克服了估算数据密度中存在的上述缺陷,提出了一种对等网络中分布无关的数据管理方法。本发明从任意一个节点估计全局数据密度,并且有较高的精准率和较低的系统开销。任意分布估计方法通过对累积分布函数进行任意分布随机抽样,得到随机样本集,从而对该随机样本集进行分析得到全局数据密度。本发明不依赖于基础数据分布或对基础数据分布无先验知识,在任意分布模型上都有相似的估计精度,并根据估算得到的数据密度将对等网络中的数据均匀分布在所有节点上,解决了对等网络中所有节点的负载不平衡的问题,减少了用户响应时间,提高了对等网络的使用效率。
本发明提出了一种对等网络中分布无关的数据管理方法,包括:
步骤一:获取对等网络中任意节点的对应的指表;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210426146.3/2.html,转载请声明来源钻瓜专利网。