[发明专利]一种SDN架构下基于深度强化学习的路由优化架构及方法有效

专利信息
申请号: 202110663396.8 申请日: 2021-06-15
公开(公告)号: CN113395207B 公开(公告)日: 2022-12-23
发明(设计)人: 霍如;沙宗轩;汪硕;黄韬;刘韵洁 申请(专利权)人: 北京工业大学
主分类号: H04L45/12 分类号: H04L45/12;H04L41/14
代理公司: 北京思海天达知识产权代理有限公司 11203 代理人: 张慧
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 sdn 架构 基于 深度 强化 学习 路由 优化 方法
【权利要求书】:

1.一种SDN架构下基于深度强化学习的路由优化架构,其特征在于:

控制平面内,Controller获取数据平面的网络状态信息,一方面将网络链路状态和switch数据传给Agent,另一方面,在与Agent运行具有相同网络拓扑、相同参数、相同网络状态的并行的虚拟网络环境中,利用现有协议,产生现有协议在当前网络状态下的传输路由并生成专家样本,与Agent和网络环境交互产生的训练样本一起放入经验池中;不同的样本具有相同的结构,均为当前网络状态,输出路由,反馈的奖励,下一个网络状态四元组,表示为St,At,Rt+1,St+1,奖励函数定义为:-(max{U}+Ds,d),U为表示当前网络环境下各链路利用率的向量,Ds,d表示数据流从源节点s到目的节点d的延迟,算法的目标是使奖励最大化,即是使当前网络中的最大链路利用率和端到端传输延迟尽可能小。

2.根据权利要求1所述的一种SDN架构下基于深度强化学习的路由优化架构,其特征在于:所述的Agent采用改进后的Actor-Critic算法,Actor-Critic算法模块包括Actor网络、SoftMax、网络链路可用性分析模块、Critic网络,在Actor-Critic算法中的Actor和SoftMax之间增加了过滤层,过滤层为二进制向量,其数值与网络链路可用性相关,Actor模块的输出与过滤层逐位相乘,当网络中出现链路不可用时,表示该链路可用性的对应位置为0,否则为1;Agent的输入包括网络链路状态和switch数据,网络链路状态包括传输延迟、抖动、丢包率、带宽、流类型数量,switch数据为switch效能估计模块根据switch状态估计的转发性能,switch状态估计包括吞吐量、CPU、内存、转发延迟、数据包转发率、流表数量、匹配项总数、当前流类型;switch效能估计模块由一个3层的神经网络实现,该神经网络第一层包含8个神经元,用于接受输入向量,第二层为全连接层,分别包含10个神经元,激活函数为ReLU,最后一层包含1个神经元,输出对switch性能的估计值。

3.一种基于权利要求1的SDN架构下基于深度强化学习的路由优化方法,其特征在于包括以下步骤:

(1)switch接收到业务数据流,查询流表;若匹配到转发规则,根据规则进行数据转发,将产生的当前网络状态,输出路由,反馈的奖励,下一个网络状态四元组加入经验池,否则继续步骤;

(2)分为两路并行分支,

分支一依次包括以下步骤:

由switch向controller发送流规则请求;

controller获取当前网络链路状态以及switch状态信息;

controller将吞吐量、CPU、内存、转发延迟、数据包转发率、流表数量、匹配项总数、当前流类型作为输入传给switch效能估计模块,输出对应switch效能的估计值;

controller将当前网络链路状态和switch效能估计值作为输入,记为St,将St传入改进的Actor-Critic,由Actor网络输出对所有传输链路的估计;

根据当前的网络状况确定过滤层的值;

Actor输出的向量依次经过过滤层和SoftMax层,产生执行动作的概率分布,即确定当前数据流的传输路径,记为At

controller根据At进行数据传输后,获取网络状态信息,记为St+1,同时根据奖励函数计算奖励值,记为Rt+1,将St,At,Rt+1,St+1四元组作为训练样本存入经验回放池中;

分支二依次包括以下步骤:

controller在具有相同参数和状态的虚拟网络中,在St状态下根据现有协议产生数据传输路由At,获取数据传输后的网络状态St+1及链路利用率Rt+1,产生用为四元组St,At,Rt+1,St+1的专家样本存入经验回放池;

(3)从经验池中随机抽取一批样本,记为mini-batch;

(4)将mini-batch中的St和St+1作为输入传进Critic网络,产生会V(St)和V(St+1),分辨表示对St和St+1这两个状态价值的估计;

(5)根据V(St)、V(St+1)和Rt+1计算TD error,用于更新Actor和Critic网络中的参数;

(6)当Actor-Critic收敛,则完成模型训练,利用训练完成的Agent进行最优路由估计,否则转到步骤(1)。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110663396.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top