[发明专利]基于深度强化学习和知识蒸馏的光网络路由方法有效

申请号：	202110721280.5	申请日：	2021-06-28
公开（公告）号：	CN113660038B	公开（公告）日：	2022-08-02
发明（设计）人：	唐碧霞;黄岳彩;陈建颖;薛云;周卫星	申请（专利权）人：	华南师范大学
主分类号：	H04B10/27	分类号：	H04B10/27;H04L45/00;H04L41/14;G06N3/04;G06N3/08;G06N20/00
代理公司：	广州粤高专利商标代理有限公司 44102	代理人：	何淑珍;江裕强
地址：	510631 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于深度强化学习知识蒸馏网络路由方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于深度强化学习和知识蒸馏的光网络路由方法，其特征在于，包括以下步骤：

S1、给定第一流量模式，采用强化学习算法训练教师模型；

教师模型是一个全连接神经网络，教师模型的输出层输出的是对应输入状态s(t)下K个状态-动作对(s(t)，a^k(t))，k∈{1，2，...，K}的Q值Q(s(t)，a^k(t)；Θ_T)，k∈{1，2，...，K}，其中，K表示新到达的流量请求的候选路径总数，s(t)表示t时刻教师模型的输入状态，a^k(t)表示t时刻状态下从K条候选路径中选择第k条路径的动作，Θ_T表示教师模型训练得到的参数；假设在一个光网络拓扑环境下，给定一个第一流量模式，流量请求的源节点和目的节点在第一流量模式下随机选取，然后教师模型通过深度强化学习智能体与光网络环境交互进行训练，具体如下：

将在第一流量模式下得到的t时刻的光网络状态s^net(t)以及t时刻的流量请求状态s^tra(t)组成一个L×(W+K)的第一流量模式下的输入状态矩阵s(t)＝[s^net(t)，s^tra(t)]_L×(W+K)，其中光网络状态s^net(t)是一个L×W的矩阵，矩阵中的元素E^lw表示链路l上波长w的可用性，如果可用，则E^lw为1，否则E^lw为0；L为光网络拓扑中链路的总数，W为链路中波长的总数；流量请求状态s^tra(t)是一个L×K矩阵，矩阵中的元素F^lk的定义如下表示：

S2、调用训练好的教师模型，在第二流量模式下，生成学生模型的训练数据；假设在一个光网络拓扑环境下，在一个第二流量模式下，流量请求的源节点和目的节点在第二流量模式下随机选取；

将在第二流量模式下得到的t时刻的光网络状态与t时刻的流量请求状态组成第二流量模式下的输入状态矩阵输入到步骤S1中得到的训练好的教师模型中，训练好的教师模型根据步骤S1中学得的策略经验给出该输入状态下，每个动作对应的Q值这些Q值接下来将会用作学生模型训练时的标签数据；

S3、在步骤S2中的第二流量模式下，将教师模型生成的数据通过知识蒸馏对学生模型进行训练，得到初步训练的学生模型；具体如下：

根据步骤S2中得到的输入状态下的一组动作的Q值引入知识蒸馏的方法，学生模型通过学习教师模型的知识进行训练，具体如下：

利用softmax将一组Q值转换为概率分布q_τ(s_n(t)；Θ)，经过softmax变换之后，每个状态-动作对的无界Q值被设置在0到1之间，但不改变其相对于其他状态-动作对的相对排名，具体由以下的公式表示：

其中，f_τ(·)是带有温度τ的softmax函数，τ＞0，具体如下：

其中，Θ∈{Θ_T，Θ_S}，Θ_T和Θ_S分别表示由教师模型和学生模型训练得到的参数；

在分别得到教师模型和学生模型输出的概率分布q_τ(s_n(t)；Θ_T)和q_τ(s_n(t)；Θ_S)之后，将q_τ(s_n(t)；Θ_T)和q_τ(s_n(t)；Θ_S)经过一个交叉熵函数H(·，·)，然后通过最小化该交叉熵函数来拟合教师模型和学生模型的概率分布，得到初步训练的学生模型；

初步训练中，学生模型的损失函数表示为L_KD(Θ_S)：

L_KD(Θ_S)＝B(q_τ(s_n(t)；Θ_T)；q_τ(s_n(t)；Θ_S))；

其中，H(·，·)表示交叉熵函数，q_τ(·；·)表示一组Q值经过softmax归一化变换后的概率分布；

S4、对步骤S3中经过初步训练的学生模型采用强化学习算法进行训练，学生模型学得第二流量模式的路由策略，完成基于深度强化学习和知识蒸馏的光网络路由。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华南师范大学，未经华南师范大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110721280.5/1.html，转载请声明来源钻瓜专利网。

上一篇：一种Na-β″-Al2
下一篇：CAT在制备肝细胞癌早期诊断试剂盒及制备或筛选抗肝癌药物中的应用

同类专利

专利分类

H 电学

H04 电通信技术
H04B 传输
H04B10-00 利用微粒辐射束、或无线电波以外的电磁波，例如光、红外线的传输系统
H04B10-02 .零部件
H04B10-10 .通过自由空间，例如通过大气传输的
H04B10-12 .通过光波导，例如光纤传输的
H04B10-22 .两个可相对移动的站之间的传输
H04B10-24 .双向传输的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于深度强化学习和知识蒸馏的光网络路由方法有效

专利文献下载