[发明专利]一种基于计算相关度的多数据中心数据布局优化方法有效
申请号: | 201410218596.2 | 申请日: | 2014-05-22 |
公开(公告)号: | CN103984737B | 公开(公告)日: | 2017-01-25 |
发明(设计)人: | 徐正全;王涛;姚世红;熊礼治 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙)42222 | 代理人: | 严彦 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于计算相关度的多数据中心数据布局优化方法,根据执行计算处理数据集的情况,生成计算集和数据集集合的访问关联矩阵,计算出任意两个数据集之间的计算相关度,生成对应的计算相关度矩阵;计算每个数据中心的基本容量,定义布局关联矩阵,根据计算相关度部署数据集。本发明通过构建访问关联矩阵和布局矩阵,给出计算相关度的具体数学表示,根据建立的计算相关度矩阵,以低复杂度的方法实现数据布局,并将新数据和中间数据动态部署至合适的数据中心,可以有效减少跨数据中心数据调度,提高系统的访问性能。 | ||
搜索关键词: | 一种 基于 计算 相关 多数 中心 数据 布局 优化 方法 | ||
【主权项】:
一种基于计算相关度的多数据中心数据布局优化方法,其特征在于,包括以下步骤:步骤S1,对于分布式多数据中心存储系统,依据一定时期内系统日志的历史访问数据记录,分析得到系统所有计算单位时间内的执行频次及计算所处理的数据集集合;步骤S2,根据执行计算处理数据集的情况,生成计算集C和数据集集合D的访问关联矩阵Α如下,设依据一定时期内分布式多数据中心存储系统中系统日志记录的历史访问数据信息,分析得到系统所有计算构成的计算集单位时间内的执行频次及计算所处理的数据集集合其中,Sk表示第k个数据中心,l为数据中心的总数;ci表示第i个计算,m为计算的总数,μi为计算ci的单位时间内的执行频次;dj表示第j个数据集,n为数据集的总数;依据组合论定义计算与数据集的访问因子αij如下,则构建计算集C与数据集集合D的访问关联矩阵Α,Α=[αij]m×n步骤S3,根据访问关联矩阵Α,计算出任意两个数据集之间的计算相关度并生成对应的计算相关度矩阵W=[ωjh]n×n;步骤S4,设每个数据中心Sk的容量为sk,计算每个数据中心Sk的基本容量sk×δk,δk为比值参数;步骤S5,定义布局关联矩阵Β如下,依据组合论定义数据集dj与数据中心Sk的布局因子βjk如下,βjk=1dj∈Sk0dj∉Sk]]>则构建数据集集合D与数据中心S的布局关联矩阵Β,Β=[βjk]n×l步骤S6,根据计算相关度ωjh部署数据集,包括以下子步骤,步骤S6‑1,初始化,包括将所有数据中心Sk置空,布局关联矩阵Β为全0矩阵,令k=1;步骤S6‑2,遍历计算相关度矩阵W主对角线元素,将ωjj最大的数据集记为dp部署在数据中心Sk,布局关联矩阵Β对应位置元素βpk置为1;步骤S6‑3,遍历相关度矩阵W一侧的所有元素,选择与数据集dp之间计算相关度ωjh最大的数据集dh部署在数据中心Sk,布局关联矩阵Β对应位置元素βhk置为1;步骤S6‑4,迭代进行操作如下,直到超出当前数据中心Sk的基本容量,计算选择与已部署的各数据集计算相关度之和最大的数据集dx,并根据基本容量sk×δk计算剩余容量undep_sk;设选择出的所有的数据集dx大小之和为∑εx,根据∑εx,在剩余容量undep_sk的限制内部署数据集dx至数据中心Sk,βxk=1,超出限制的数据集dx部署在数据中心Sk+1,βx(k+1)=1;步骤S6‑5,计算相关度矩阵W中已部署数据集对应元素置为0,令k=k+1,返回S6‑2循环处理,直到所有的数据集布局完成。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410218596.2/,转载请声明来源钻瓜专利网。