[发明专利]一种基于深度强化学习的网络流量调度方法以及系统有效
申请号: | 202210098810.X | 申请日: | 2022-01-27 |
公开(公告)号: | CN114500360B | 公开(公告)日: | 2022-11-11 |
发明(设计)人: | 江志远;廖小平 | 申请(专利权)人: | 河海大学 |
主分类号: | H04L45/125 | 分类号: | H04L45/125;H04L45/02;H04L41/12;H04L41/142;G06N3/04;G06N3/08 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 孟红梅 |
地址: | 210024 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 网络流量 调度 方法 以及 系统 | ||
1.基于深度强化学习的网络流量调度方法,其特征在于,包括如下步骤:
软件定义网络SDN控制器收集网络信息,包括端口、带宽和时延信息;
对收集到的网络信息进行处理,计算出整个网络中的所有链路状态指标,包括带宽指标、时延指标和丢包率,并将每一条链路的相关信息设置成元组形式,存储到网络信息数据存储库中;每一个元组包括源节点,目的节点以及对应的指标信息;
以网络信息数据存储库中的信息作为输入,为随机状态St选择最优的动作At,然后到达下一个状态St+1,同时获得奖励Rt;将新的元组信息St,At,St+1,Rt存储在数据集中,方便后续采用经验重放机制进行训练;
根据全局视图,采用双重深度Q学习网络DDQN对路径状态信息进行探索与学习,计算出每一对源、目的节点之间的最优路径,将这些路径存储在链路数据存储库;
根据实际流量转发需求,检索最优路径,同时将检索到的最优路径部署到相应的路由设备上;
基于DDQN算法学习从初始状态到目标状态,即源节点到目标节点,转换过程中所采取的一系列步骤;每个步骤包括选择和执行一个行动,改变状态,以及获得奖励;DDQN的三个指标的设定分别为:
状态空间:是DDQN可以观测到的状态的集合,每一个状态都是代表着通信的源、目的节点对,在给定N个节点的网络中,状态空间大小为N!/(N-2)!,DDQN根据全局视图来构建状态空间;
动作空间:是对于状态空间中状态转换所执行的动作的集合,动作At∈[1,...,k]对应着对于给定的状态St的路径选择Pi∈[P1,...,Pk],其中k表示当前状态可选择的动作数量;
奖励函数:根据路径指标计算出来的,路径的指标包括三个部分:带宽bandwidthLink,丢包率dLink以及时延lLink,奖励函数的计算方式为即奖励函数与带宽成反比,与时延以及丢包率成正比;其中βa、βb、lLink三个参数是可调的,在[0,1]之内,为计算奖励提供权重值;
采用双重深度Q学习网络来逼近最优策略,两个网络分别是目标神经网络以及在线神经网络;在线神经网络的作用是根据状态St的奖励值Rt获得更新后的Q值:其中Qt(St,At)是状态St对应动作At的更新前Q值,Qt+1(St,At)是更新后的值,α是预设的权值,表示未更新时候到达下一状态St+1获得最小Q值的估计值;目标神经网络根据关联状态获得最小Q值对应的动作再根据这个动作获得更新后的Q值:Qt+1′(St,At)=Rt+γ*Qt(St,A′),γ是预设的权值,Qt(St,A′)是未更新时候当前状态的最优Q值;在学习过程中,训练在线神经网络减小损失函数:Loss=(Qt+1′(St,At)-Qt+1(St,At))2,即减小两网络更新后的差值。
2.根据权利要求1所述的一种基于深度强化学习的网络流量调度方法,其特征在于,SDN控制器从底层转发设备收集网络信息,根据这些信息生成整个网络的实际拓扑图,通过周期性地收集节点和链路的拓扑信息,检测节点和链路相关的拓扑变化,并将这些信息存储到网络信息数据存储库中,实时提供更新后的全局视图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210098810.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:拍摄方法、装置、存储介质以及电子设备
- 下一篇:半自动阀芯压铆机