[发明专利]基于深度强化学习和知识蒸馏的光网络路由方法有效
申请号: | 202110721280.5 | 申请日: | 2021-06-28 |
公开(公告)号: | CN113660038B | 公开(公告)日: | 2022-08-02 |
发明(设计)人: | 唐碧霞;黄岳彩;陈建颖;薛云;周卫星 | 申请(专利权)人: | 华南师范大学 |
主分类号: | H04B10/27 | 分类号: | H04B10/27;H04L45/00;H04L41/14;G06N3/04;G06N3/08;G06N20/00 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 何淑珍;江裕强 |
地址: | 510631 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 强化 学习 知识 蒸馏 网络 路由 方法 | ||
1.基于深度强化学习和知识蒸馏的光网络路由方法,其特征在于,包括以下步骤:
S1、给定第一流量模式,采用强化学习算法训练教师模型;
教师模型是一个全连接神经网络,教师模型的输出层输出的是对应输入状态s(t)下K个状态-动作对(s(t),ak(t)),k∈{1,2,...,K}的Q值Q(s(t),ak(t);ΘT),k∈{1,2,...,K},其中,K表示新到达的流量请求的候选路径总数,s(t)表示t时刻教师模型的输入状态,ak(t)表示t时刻状态下从K条候选路径中选择第k条路径的动作,ΘT表示教师模型训练得到的参数;假设在一个光网络拓扑环境下,给定一个第一流量模式,流量请求的源节点和目的节点在第一流量模式下随机选取,然后教师模型通过深度强化学习智能体与光网络环境交互进行训练,具体如下:
将在第一流量模式下得到的t时刻的光网络状态snet(t)以及t时刻的流量请求状态stra(t)组成一个L×(W+K)的第一流量模式下的输入状态矩阵s(t)=[snet(t),stra(t)]L×(W+K),其中光网络状态snet(t)是一个L×W的矩阵,矩阵中的元素Elw表示链路l上波长w的可用性,如果可用,则Elw为1,否则Elw为0;L为光网络拓扑中链路的总数,W为链路中波长的总数;流量请求状态stra(t)是一个L×K矩阵,矩阵中的元素Flk的定义如下表示:
S2、调用训练好的教师模型,在第二流量模式下,生成学生模型的训练数据;假设在一个光网络拓扑环境下,在一个第二流量模式下,流量请求的源节点和目的节点在第二流量模式下随机选取;
将在第二流量模式下得到的t时刻的光网络状态与t时刻的流量请求状态组成第二流量模式下的输入状态矩阵输入到步骤S1中得到的训练好的教师模型中,训练好的教师模型根据步骤S1中学得的策略经验给出该输入状态下,每个动作对应的Q值这些Q值接下来将会用作学生模型训练时的标签数据;
S3、在步骤S2中的第二流量模式下,将教师模型生成的数据通过知识蒸馏对学生模型进行训练,得到初步训练的学生模型;具体如下:
根据步骤S2中得到的输入状态下的一组动作的Q值引入知识蒸馏的方法,学生模型通过学习教师模型的知识进行训练,具体如下:
利用softmax将一组Q值转换为概率分布qτ(sn(t);Θ),经过softmax变换之后,每个状态-动作对的无界Q值被设置在0到1之间,但不改变其相对于其他状态-动作对的相对排名,具体由以下的公式表示:
其中,fτ(·)是带有温度τ的softmax函数,τ>0,具体如下:
其中,Θ∈{ΘT,ΘS},ΘT和ΘS分别表示由教师模型和学生模型训练得到的参数;
在分别得到教师模型和学生模型输出的概率分布qτ(sn(t);ΘT)和qτ(sn(t);ΘS)之后,将qτ(sn(t);ΘT)和qτ(sn(t);ΘS)经过一个交叉熵函数H(·,·),然后通过最小化该交叉熵函数来拟合教师模型和学生模型的概率分布,得到初步训练的学生模型;
初步训练中,学生模型的损失函数表示为LKD(ΘS):
LKD(ΘS)=B(qτ(sn(t);ΘT);qτ(sn(t);ΘS));
其中,H(·,·)表示交叉熵函数,qτ(·;·)表示一组Q值经过softmax归一化变换后的概率分布;
S4、对步骤S3中经过初步训练的学生模型采用强化学习算法进行训练,学生模型学得第二流量模式的路由策略,完成基于深度强化学习和知识蒸馏的光网络路由。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南师范大学,未经华南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110721280.5/1.html,转载请声明来源钻瓜专利网。