[发明专利]一种云数据中心应用可感知的分布式多资源组合路径最优选取方法有效

申请号：	201910050829.5	申请日：	2019-01-20
公开（公告）号：	CN109818786B	公开（公告）日：	2021-11-26
发明（设计）人：	毕敬;刘恒;张晓芬	申请（专利权）人：	北京工业大学
主分类号：	H04L12/24	分类号：	H04L12/24;H04L12/947;H04L29/08;G06F9/50;G06N3/08
代理公司：	北京思海天达知识产权代理有限公司 11203	代理人：	张慧
地址：	100124 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种数据中心应用感知分布式资源组合路径最优选取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种构建云数据中心应用可感知的分布式多资源组合路径的最优选取方法，其特征在于，包括如下步骤：

步骤1)云数据中心应用可感知云资源管理器负责采集基础资源中的网络、CPU资源状态信息；

步骤2)采用强化学习、价值网络及策略网络相结合的方式形成无监督的深层混合架构模型，对模型训练及各类请求流的节点移动位置进行评估；

步骤3)采用新型的树搜索算法，即并行蒙特卡罗树搜索(Parallel Monte Carlo TreeSearch,PMCTS)算法，来给每一类型的请求流加速寻找合适的资源路径，并且联合价值和策略网络，从而给出其最优的资源路径的选择结果。

2.根据权利要求1所述的云数据中心应用可感知的分布式多资源组合路径的最优选取方法，其特征在于，步骤1)中首先从请求流数据仓库(Request Flow Data Hive,RFDH)周期性地获取各类请求流在每段资源的流量预测信息；并通过应用可感知云资源管理器(Application-Aware Cloud Resource Management,AACRM)获取实时的网络拓扑结构、每一条网络链路和服务器集群中的CPU、Memory、I/O资源的状态信息，进而将这些资源状态信息实时存储到HBase数据库里。

3.根据权利要求1所述的云数据中心应用可感知的分布式多资源组合路径的最优选取方法，其特征在于，步骤2)具体为：

首先，对问题进行抽象建模，将解决的问题转化为一个环境，环境需要如下的要素：

i)状态空间S：每个请求流可能流经的交换机等设备的局面，就是一个状态，S＝[S₁,S₂,S₃,…S_n]，

其中：n代表交换机的个数，即状态个数；

ii)动作空间A：每个请求流可能经过的链路，即请求流从一个交换机流经到下一个交换机的链路，就是一个动作；

iii)状态转移概率P：在给定当前状态和动作下，转移到下一个状态的概率分布：

其中：s′表示下一时刻的可能状态；

iv)折扣因子γ：γ∈[0,1]，若接近于0，则只考虑眼前利益；若接近于1，则该算法可获得最大化的未来回报；

v)回报函数：给定动作当前状态和下一状态得到的回报，正代表奖励，负代表惩罚；假设当前时刻为t,其未来回报函数可定义为：

其中：γ为折扣因子，且γ∈[0,1]；每次选择R值比较大的那条链路作为最优链路；

其次，策略网络结合强化学习利用步骤1)中获取的经特征工程处理过的各类请求流负载预测信息以及网络链路和服务器集群中的当前状态信息作为输入层特征，通过多个卷积层来训练网络，定义此网络每一层的权重参数并对其进行初始化，此网络层与层之间为映射关系，即上一层的输出为下一层的输入，对于此网络来说为由输入层的输入数据经过每一层的权重以及该层的激活函数共同计算过后，输出到下一层，直至到达输出层；此时强化学习根据输出的结果，与环境交互，此时对要执行的环境进行抽象，输出结果根据抽象的环境执行策略a,到达下一个节点S_i，但再次选择下一个节点时，将设置为选择未到达过的节点S_i的动作a,避免环路的产生；每一个动作执行过后将根据第二步的折扣因子γ、当前回报r等对输出动作执行产生的奖惩进行计算，并将每步的回报值进行累加即可得到最后的总回报值并将此回报值反馈给网络，进行不断地迭代优化；由此得到下一时间周期内到达的各类请求流在网络链路和服务器集群节点中的激活概率P(s,a)，即选择当前动作a的概率；价值网络结合强化学习使用多个卷积层对策略网络产生的结果，即对即将到达的各类请求流可能选择合适的节点移动位置进行评估，得到评估结果v，可通过相关命令来获得QoS的相关质量标准：每个交换机的CPU的利用率和每条链路的可用带宽、延迟抖动和丢包率；将以上若干参数指标进行归一化处理，将所有的数据全部映射到[0,1]区间，可采用min-max方法来做归一化处理，公式如下：

其中：x^*表示归一化后的目标值，x表示需要归一化的数据，x_min代表数据中的最小值，x_max代表数据中的最大值；

假设下一状态交换机的CPU利用率及连接链路的可用带宽、延迟抖动、丢包率参数归一化处理后的结果分别为：x_c、x_b、x_j和x_d，给每个参数分别赋予不同的权重w_a、w_b、w_c、w_d…，且(w_a,w_b,w_c,w_d…)∈[0,1]，即可得到：

v＝[w_ax_c+w_bx_b+w_cx_j+w_dx_d+…]；

此时v值越大说明此条链路性能越优。

4.根据权利要求1所述的云数据中心应用可感知的分布式多资源组合路径的最优选取方法，其特征在于，步骤3)采用新型的树搜索算法，即PMCTS算法，来给每一类型的请求流加速寻找合适的资源路径，结合策略网络、价值网络，构建的模型得出的结果，对模型给出的可能位置进行不断的推演，不断更新不同位置的优劣程度，后给出最优资源路径的选择结果；在搜素过程中每条边存储4个值，分别为：

i)N(s,a)：该边的访问次数；

ii)W(s,a)：表示行为价值，为搜索路径上所有结点的价值总和，行为价值由价值网络输出得到；

iii)Q(s,a)：表示搜索路径上总的行为价值与访问次数的比值，即平均行为价值；

iv)P(s,a)：表示此边的先验概率；即策略网络输出的选择当前a的概率；

其中，搜索开始时，根节点的每条边初始化，前三项初始值为0，P(s,a)的初值为P(a)；其中s表示节点即状态，a表示一条边；

假设模拟到达叶子节点的迭代次数为L，每次模拟分为以下4步：

i)节点的选择，选择一个开始节点作为根节点S₀，在步骤为tL时选择一个动作a_t，且a_t＝max(Q(s_t,a)+U(s_t,a))，其中：

其中，c为可调参数，决定探索的程度；N代表当前节点的父节点被访问的次数，

ii)节点的扩展，利用U(s,a)公式计算每个子节点的U值，选择最大值的子节点M，

iii)随机模拟，从M节点开始运行一个模拟的输出，直至到达叶子节点结束，

iv)反向传播，N(s,a)加1,W(s,a)增加价值v,行为价值由价值网络输出得到,

搜索结束后，算法会选择访问次数N(s,a)最大的节点的策略a作为要选择的策略。