[发明专利]一种分布式分域网络下的高效路由方法有效
申请号: | 201911007273.8 | 申请日: | 2019-10-22 |
公开(公告)号: | CN110995590B | 公开(公告)日: | 2022-04-22 |
发明(设计)人: | 罗涛;李泽旭;刘颖;李勇;杨灿 | 申请(专利权)人: | 中国电子科技集团公司第七研究所 |
主分类号: | H04L45/44 | 分类号: | H04L45/44;H04L45/00;H04L45/12;H04L45/24 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 510310 广东省广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分布式 网络 高效 路由 方法 | ||
1.一种分布式分域网络下的高效路由方法,所述该方法基于分布式分域的网络架构,每个骨干网区域包括簇内成员节点、簇首节点,所有簇内成员节点均能通过一跳或多跳的方式连接至簇首节点;
其特征在于:所述该方法包括步骤如下:
S1:源节点将业务请求包发送至区域簇首节点,由簇首节点判断,源节点与目标节点是否处于同一区域;
S2:当源节点与目标节点处于同一区域时,簇首节点调用区域资源池信息,基于强化学习的路由决策算法,返回一条或多条满足业务服务质量QoS需求的路由路径,并将决策信息发送至路径相关节点,执行路由决策,完成该业务端到端的路由建立;
S3:当源节点与目标节点处于不同区域,簇首节点调用全局资源池信息,基于强化学习的路由决策算法判断该业务需要经过的区域,采用跨区域业务请求拆分方法将该业务请求拆分为多段域内请求;
S4:将拆分后的业务请求分别发送至所经过的区域的簇首节点,簇首节点调用区域资源池信息、基于强化学习的路由决策算法,为每段区域内业务请求规划路由路径,最终由多区域协作完成端到端的路由决策,从而得到源节点到目标节点的路由路径;
所述基于强化学习的路由决策算法,其步骤如下:
D1:将骨干网络拓扑用图G(V,E)表示,其中i∈V代表骨干网节点,边ij∈E表示节点i至节点j之间的通信链路;通过计算端到端时延、带宽能力、丢包率三类性能指标;
D2:基于资源信息获取方法,将端到端时延、带宽能力、丢包率以区域资源池和全局资源池的方式存储于相应区域的簇首节点,并周期性同步更新;
D3:基于业务QoS需求建立路径规划问题,并将图G(V,E)的路由过程映射为马尔可夫决策过程E=X,A,P,R,其中X代表当前系统状态,A代表决策动作集合,P代表状态转移概率,R表示奖赏函数;
D4:所述马尔可夫决策过程四元组均为已知,采用强化学习中值迭代算法进行求解;采用归一化加权平均将问题转为单一优化目标求解,从而得到最优策略π,通过策略π标识出源节点S至目标节点D路由路径上的每一跳节点,即端到端的一条完整路由路径;
步骤D1,计算端到端时延、带宽能力、丢包率的具体公式如下:
其中,端到端时延MD(Eρ):路由路径上端到端的时延为路径上每一跳链路dij时延的加和,即
带宽能力MW(Eρ):路由路径能够提供的带宽能力为路径上每一跳链路所能提供的带宽的最小值,即
丢包率ML(Eρ):路径成功传输的概率为路径上每一跳链路成功传输概率的成绩,因此端到端丢包率可以表示为
其中,Eρ表示源节点S到目标节点D的一条路由路径,ρ表示目标节点D的业务,dij表示节点i到节点j一跳的时延、wij表示节点i到节点j的可用带宽、eij表示节点i到节点j的传输丢包率;
步骤D3,所述的业务QoS需求是在满足用户时延(Dreq)、带宽(Wreq)和丢包率(Lreq)的基本需求前提下,为该业务分配一条或多条时延和丢包率最低的路由路径,其数学表达式如下:
s.t.MW(Eρ)≥Wreq
MD(Eρ)≤Dreq
ML(Eρ)≤Lreq
其中,E[x]t表示在业务传输时间t内的期望值,Wreq,Dreq,Lreq分别表示该业务的带宽、时延和丢包率的需求;
步骤D4,所述采用强化学习中值迭代算法进行求解,具体如下:
将在当前状态下通过策略π可得到的最大累积奖赏采用状态值函数Vπ(x)代表,并采用状态-动作值函数Qπ(x,a)代表在当前状态下执行动作a后,继续通过策略π可得到的最大累积奖赏;
其中,T步累积奖赏下的Vπ(x)可定义如下:
T步累积奖赏下的可定义如下:
因模型已知,可进行全概率展开:
其中,rt表示t时刻的瞬时奖赏、π(x,a)表示在状态x执行动作a的策略、状态x在执行动作a后转移到状态x’的概率;
对于收敛阈值θ给定的情况下,值迭代算法过程如下所示:
C1:状态值函数V(x)初始化为0,转至A2;
C2:按公式计算执行当前策略获得的状态值函数V′(x),若当前状态值函数V′(x)与上一策略中状态值函数V(x)相等则转至A4,否则转至A3;
C3:使用当前状态值函数V′(x)覆盖原有状态值函数V(x),跳转至A2;
C4:输出最佳状态值函数V(x);
将瞬时奖赏替换为端到端时延、带宽能力、丢包率;假设在状态x下,动作a为选择x′为下一跳节点,那么求最大路径剩余带宽的相应迭代更新公式如下:
qw(x,a)=min(wx,x′,max(x′,a*))
当qw(x,a)≥wthr时才进行时延与误码率指标的更新:
qd(x,a)=dx,x′+min(qd(x′,a*))
qe(x,a)=1-(1-ex,x′)*(1-min(qe(x′,a*)))
当q值矩阵收敛时结束更新,此时可得到qd(x,a),qe(x,a)两张q值表,横坐标为状态,纵坐标为动作,q值表中的每一行代表当前状态下选择各个动作可得到的最优奖赏值;
通过加权平均可将qd(x,a),qe(x,a)两张q值表转化为一张q值表,按照q值表依次选择最小的q值即可得到策略π;
当q值矩阵收敛时结束更新,此时可得到qd(x,a),qe(x,a)两张q值表,横坐标为状态纵坐标为动作,表中的每一行代表当前状态下选择各个动作可得到的最优奖赏值,即是最小时延与最低丢包率;
对于时延及丢包率两类指标,采用归一化加权平均,从而转化为单一目标进行求解;通过加权平均可将qd(x,a),qe(x,a)两张q值表转化为一张q值表,按照q值表依次选择最小的q值即可得到策略π;
通过所述基于强化学习的路由决策算法得到策略π={a1,a2,…,D}其标识出源节点S至目标节点D路由路径上的每一跳节点,即端到端的一条完整路由路径。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第七研究所,未经中国电子科技集团公司第七研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911007273.8/1.html,转载请声明来源钻瓜专利网。