[发明专利]一种基于深度强化学习的数据中心网络路由方法有效

申请号：	201810105232.1	申请日：	2018-02-02
公开（公告）号：	CN108401015B	公开（公告）日：	2020-10-02
发明（设计）人：	刘外喜;李进;王宇;杨钊;唐冬;彭凌西	申请（专利权）人：	广州大学
主分类号：	H04L29/08	分类号：	H04L29/08;H04L12/729;H04L12/727;H04L12/725;H04L12/721
代理公司：	广州市华学知识产权代理有限公司 44245	代理人：	李斌;裘晖
地址：	510006 广东省广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度强化学习数据中心网络路由方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度强化学习的数据中心网络路由方法，其特征在于，包括下述步骤：

S1、为网络划分区域，基于社团发现算法将全网划分为多个社团，一个社团作为一个区域，每个区域中节点介数最大的节点上部署一个SDN控制器负责管理该区域，各交换机节点与该SDN控制器相连，接收其下发的转发规则；

S2、建立网络的全局视图，SDN控制器根据网络拓扑，建立节点的邻接矩阵，节点之间链路的资源值为缓存与带宽的复合资源，每个SDN控制器上部署一个代理agent；

S3、构建面向路由的深度强化学习框架，深度强化学习框架包括强化学习和深度学习两部分；一方面，代理agent通过强化学习与网络进行交互，包括基于INT技术对网络进行状态的感知和奖赏的反馈，最后完成动作的下发；另一方面，agent用深度学习算法近似表示强化学习中的状态动作值函数，找到状态空间S到动作空间A的一个映射，即，agent与网络经过多次的交互后，找到实现路由优化目标的最优动作集；

所述强化学习包括下述三个要素：

(1)奖赏reward

路由优化目标设定为以下性能的要求：在端到端时延满足QoS下，网络的整体吞吐量最大；那么奖赏函数r如下：

其中，T_m(t)是节点m在t时刻的吞吐量，r_N是一个常数，r_N0，d(t)是在t时刻网络中各流完成时间的平均值，D是一个常数，D0；d(t)＜D表示端到端时延满足QoS要求；由于流的报文转发要经过多跳，当前动作无法立刻获取其被实施后目标流的端到端时延，所以，观察当前其他已完成流的端到端时延d(t) 是否满足QoS；

(2)动作action

动作action是节点选择以及转发规则，即，从节点邻接矩阵里面选择一个能够到达目的地的节点集；该节点集可以唯一地确定多条从源到达目的地的路径；

(3)状态state

状态state包括资源占用状态+资源需求状态：资源占用状态为网络中各节点的资源的已使用情况，资源需求状态为待转发的流对资源的需求情况，它们都用图形法来表达；

S4、确定路由的路径以及转发规则，SDN控制器根据agent的动作选择结果确定路径，并基于数据面可编程方法P4制定数据报、流、组流各种粒度的转发规则，并下发到各个交换机去执行。

2.根据权利要求1所述基于深度强化学习的数据中心网络路由方法，其特征在于，步骤S1中，所有与区域外的通信都通过固定的有限个边界节点进行转发，各个区域的控制器互相连接，组成扁平式的分布式控制器网络，负责区域间通信的控制。

3.根据权利要求1所述基于深度强化学习的数据中心网络路由方法，其特征在于，步骤S1中，所述社团发现算法为最小割的谱聚类或Fast Girvan Newman算法。

4.根据权利要求1所述基于深度强化学习的数据中心网络路由方法，其特征在于，所述资源占用状态图包括节点、节点的复合资源以及时间三个维度。

5.根据权利要求1所述基于深度强化学习的数据中心网络路由方法，其特征在于，所述资源需求状态图包括时间、资源2个维度，资源表示流从源到目的地所走路径要求的复合资源总和；只记录前M个流的详细的资源需求状态，而其他的流只记录数量。

6.根据权利要求1所述基于深度强化学习的数据中心网络路由方法，其特征在于，步骤S3中，所述深度学习旨在发现状态与动作之间的映射，基于已有公开数据集，采用REINFORCE算法对深度学习模型进行训练。

7.根据权利要求1所述基于深度强化学习的数据中心网络路由方法，其特征在于，步骤S4中，所述确定路由的路径是使用复合资源作为衡量路径质量的度量，所述流为五元组相同的一组数据报，所述组流为具有某个相同特性的多个流组成的一组数据报。

8.根据权利要求1所述基于深度强化学习的数据中心网络路由方法，其特征在于，基于数据驱动的思想，将流对性能的要求转换表达为流对资源的需求，并且通过将资源的需求分解到多条路径上来实现多路径路由。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广州大学，未经广州大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810105232.1/1.html，转载请声明来源钻瓜专利网。

上一篇：游戏中虚拟资源的转移方法和存储介质
下一篇：一种通用计算模块和网关

同类专利

专利分类

H 电学

H04 电通信技术
H04L 数字信息的传输，例如电报通信
H04L29-00 H04L 1/00至H04L 27/00单个组中不包含的装置、设备、电路和系统
H04L29-02 .通信控制；通信处理
H04L29-12 .以数据终端为特征的
H04L29-14 .故障的应对措施
H04L29-04 ..用于多条通信线路的
H04L29-06 ..以协议为特征的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度强化学习的数据中心网络路由方法有效

专利文献下载