[发明专利]一种基于超图划分算法的相关数据存储方法在审
申请号: | 201710388857.9 | 申请日: | 2017-05-25 |
公开(公告)号: | CN107273207A | 公开(公告)日: | 2017-10-20 |
发明(设计)人: | 王宝亮;张光荣;常鹏;张荧允 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F9/50 | 分类号: | G06F9/50 |
代理公司: | 天津市北洋有限责任专利代理事务所12201 | 代理人: | 程毓英 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 超图 划分 算法 相关 数据 存储 方法 | ||
技术领域
本发明属于大数据处理技术领域,涉及一种相关数据存储方法。
背景技术
随着互联网的高速发展和迅速普及,全球数据量呈现爆炸式增长,我们已经进入了一个信息爆炸型的时代。面对海量、复杂的数据,信息处理量达到TB级甚至PB级已是正常现象,大数据概念应运而生。相对于传统的数据,人们将大数据的特征总结为4个V,即数据量大(Volume)、速度快(Velocity)、类型多(Variety)价值密度低(Value)。数据量大仍可以靠扩展储存在一定程度上缓解,然而要求及时响应、数据多样性和数据不确定性是传统数据处理方法所不能解决的。为了应对这种大数据所带来的困难和挑战,诸多大型互联网公司近几年推出了各种类型的大数据处理系统。作为一个新兴的技术,大数据处理技术在很多地方还存在着很多不足,如调用分布式的数据所造成的延迟、巨大的数据吞吐量与不相符的网络速率所造成的网络负载严重的问题等。因此,国内外诸多学者们一直在找寻较好的数据存储方法以加强大数据处理的综合能力。
看似海量、复杂的数据,其内在具有一定的关联性,处理某些具体任务时所需数据具有某些特点(如使用频率、大小、与其他数据同时使用等),若尽可能将相关性高的数据存放在计算节点,则在使用时候无需占用网络资源,节省时间,提高系统的有效性。
超图(Hypergraph)是离散数学的中普通图的推广,其数学定义为:对于超图H,有超图的结点集合V和超图的边(超边,Hyperedge)的集合E,则有H=(V,E)。其中,每一个超边e都是V的一个非空集合,一般e所包含的结点数就表示其度数记为|e|(大于等于2)。超图划分就是将超图的节点划分为k个大致相等的部分,且出现同一个超图连接多个部分的节点的情况被最小化。
发明内容
本发明的目的是,提出一种基于超图划分的对相关数据进行存储优化方法。该方法针对数据需求基本相同的同类任务,预测出此类任务的固定需求,记为一个需求模式,使用超图划分算法将此模式所需的数据移动至负载较小的节点。技术方案如下:
一种基于超图划分算法的相关数据存储方法,包括下列步骤:
(1)对于一个需要处理数据的任务,称其为一个需求模式,该需求模式需要多个存储在数据中心节点的数据,需求模式确定后,预测出其需求率,假设每个节点需求率为Rpy,该需求模式总的需求率为
(2)根据需求率的设定,选择度量标准,即超图划分的标准,第一是完成一个需求所需的系统开销CA,第二是完成需求所需的总的中继流量CL,得出度量标准为C(D)=CA+αCL,α为平衡两个标准取值在0和1之间的参数。
(3)根据步骤二的判断标准建立超图模型,把所有的数据项和数据节点设为超图的顶点集合V,超边集合E中包含所有的需求模式和数据项与节点的映射关系,每条超边e∈E被赋予一个权重,基于(2)中的度量标准,为各个权重赋值,在超图中,有两类节点,存储节点和数据项,两类边,需求模式超边和数据节点超边。
(4)指把超图顶点划分为n个输出集合,每个顶点只属于n个集合中的一个,减少超图划分的权重被计算为减少超边权重的总和,如果一个超边的顶点不只属于一个集合,此超边被剪掉,超边e的顶点落到t个集合中,那么它的减权被计算为(t-1)we。
(5)粗划阶段:减少超边的权重,将联系紧密的节点合并,构造规模更小的无权超图,使得相邻两层超图之间的缩小率达到设定的缩小率,所述缩小率为相邻两层超图节点数目减小的百分比。
(6)初始化阶段:将步骤(5)所得规模更小的无权超图进行初始划分,得到最初始的k个子图,划分方法为随机划分;
(7)优化阶段:将步骤(6)所到的k个子图随机选择裂变节点后依次进行裂变还原,构造一系列超图,直到规模达到原始无权超图的规模,得到优化后的k个子图。
附图说明
图1需求模式图例
图2二分图
图3超图模型
图4算法流程图
具体实施方式
本专利的基本思想是,对于一个确定的需求模式,根据需求模式所需数据建立一个需求模式与数据中心存储数据节点的二元关系。根据该二元关系和所提出的度量标准,构建一个数据存储于数据节点的函数映射关系。具体说明如下。
一.数据项与节点
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710388857.9/2.html,转载请声明来源钻瓜专利网。