[发明专利]一种SDN架构下基于深度强化学习的路由优化架构及方法有效
申请号: | 202110663396.8 | 申请日: | 2021-06-15 |
公开(公告)号: | CN113395207B | 公开(公告)日: | 2022-12-23 |
发明(设计)人: | 霍如;沙宗轩;汪硕;黄韬;刘韵洁 | 申请(专利权)人: | 北京工业大学 |
主分类号: | H04L45/12 | 分类号: | H04L45/12;H04L41/14 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 张慧 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 sdn 架构 基于 深度 强化 学习 路由 优化 方法 | ||
1.一种SDN架构下基于深度强化学习的路由优化架构,其特征在于:
控制平面内,Controller获取数据平面的网络状态信息,一方面将网络链路状态和switch数据传给Agent,另一方面,在与Agent运行具有相同网络拓扑、相同参数、相同网络状态的并行的虚拟网络环境中,利用现有协议,产生现有协议在当前网络状态下的传输路由并生成专家样本,与Agent和网络环境交互产生的训练样本一起放入经验池中;不同的样本具有相同的结构,均为当前网络状态,输出路由,反馈的奖励,下一个网络状态四元组,表示为St,At,Rt+1,St+1,奖励函数定义为:-(max{U}+Ds,d),U为表示当前网络环境下各链路利用率的向量,Ds,d表示数据流从源节点s到目的节点d的延迟,算法的目标是使奖励最大化,即是使当前网络中的最大链路利用率和端到端传输延迟尽可能小。
2.根据权利要求1所述的一种SDN架构下基于深度强化学习的路由优化架构,其特征在于:所述的Agent采用改进后的Actor-Critic算法,Actor-Critic算法模块包括Actor网络、SoftMax、网络链路可用性分析模块、Critic网络,在Actor-Critic算法中的Actor和SoftMax之间增加了过滤层,过滤层为二进制向量,其数值与网络链路可用性相关,Actor模块的输出与过滤层逐位相乘,当网络中出现链路不可用时,表示该链路可用性的对应位置为0,否则为1;Agent的输入包括网络链路状态和switch数据,网络链路状态包括传输延迟、抖动、丢包率、带宽、流类型数量,switch数据为switch效能估计模块根据switch状态估计的转发性能,switch状态估计包括吞吐量、CPU、内存、转发延迟、数据包转发率、流表数量、匹配项总数、当前流类型;switch效能估计模块由一个3层的神经网络实现,该神经网络第一层包含8个神经元,用于接受输入向量,第二层为全连接层,分别包含10个神经元,激活函数为ReLU,最后一层包含1个神经元,输出对switch性能的估计值。
3.一种基于权利要求1的SDN架构下基于深度强化学习的路由优化方法,其特征在于包括以下步骤:
(1)switch接收到业务数据流,查询流表;若匹配到转发规则,根据规则进行数据转发,将产生的当前网络状态,输出路由,反馈的奖励,下一个网络状态四元组加入经验池,否则继续步骤;
(2)分为两路并行分支,
分支一依次包括以下步骤:
由switch向controller发送流规则请求;
controller获取当前网络链路状态以及switch状态信息;
controller将吞吐量、CPU、内存、转发延迟、数据包转发率、流表数量、匹配项总数、当前流类型作为输入传给switch效能估计模块,输出对应switch效能的估计值;
controller将当前网络链路状态和switch效能估计值作为输入,记为St,将St传入改进的Actor-Critic,由Actor网络输出对所有传输链路的估计;
根据当前的网络状况确定过滤层的值;
Actor输出的向量依次经过过滤层和SoftMax层,产生执行动作的概率分布,即确定当前数据流的传输路径,记为At;
controller根据At进行数据传输后,获取网络状态信息,记为St+1,同时根据奖励函数计算奖励值,记为Rt+1,将St,At,Rt+1,St+1四元组作为训练样本存入经验回放池中;
分支二依次包括以下步骤:
controller在具有相同参数和状态的虚拟网络中,在St状态下根据现有协议产生数据传输路由At,获取数据传输后的网络状态St+1及链路利用率Rt+1,产生用为四元组St,At,Rt+1,St+1的专家样本存入经验回放池;
(3)从经验池中随机抽取一批样本,记为mini-batch;
(4)将mini-batch中的St和St+1作为输入传进Critic网络,产生会V(St)和V(St+1),分辨表示对St和St+1这两个状态价值的估计;
(5)根据V(St)、V(St+1)和Rt+1计算TD error,用于更新Actor和Critic网络中的参数;
(6)当Actor-Critic收敛,则完成模型训练,利用训练完成的Agent进行最优路由估计,否则转到步骤(1)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110663396.8/1.html,转载请声明来源钻瓜专利网。