[发明专利]基于深度强化学习和知识蒸馏的光网络路由方法有效
申请号: | 202110721280.5 | 申请日: | 2021-06-28 |
公开(公告)号: | CN113660038B | 公开(公告)日: | 2022-08-02 |
发明(设计)人: | 唐碧霞;黄岳彩;陈建颖;薛云;周卫星 | 申请(专利权)人: | 华南师范大学 |
主分类号: | H04B10/27 | 分类号: | H04B10/27;H04L45/00;H04L41/14;G06N3/04;G06N3/08;G06N20/00 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 何淑珍;江裕强 |
地址: | 510631 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 强化 学习 知识 蒸馏 网络 路由 方法 | ||
本发明公开了基于深度强化学习和知识蒸馏的光网络路由方法。所述方法包括以下步骤:给定第一流量模式,采用强化学习算法训练教师模型;调用训练好的教师模型,在第二流量模式下,生成学生模型的训练数据;在第二流量模式下,将教师模型生成的数据通过知识蒸馏对学生模型进行训练,得到初步训练的学生模型;对经过初步训练的学生模型采用强化学习算法进行训练,学生模型学得第二流量模式的路由策略,完成基于深度强化学习和知识蒸馏的光网络路由。本发明通过利用知识蒸馏,把在一个流量模式下训练得到的模型知识传递给在另一个流量模式下训练的模型,使后者模型在训练过程中得到了额外的、有用的知识。
技术领域
本发明属于强化学习在光网络路由分配中应用的领域,具体涉及一种基于深度强化学习和知识蒸馏的光网络路由方法。
背景技术
随着互联网技术的发展,人们对通信的需求不断增长,面对不断增长的流量和各种服务质量需求,如何做到合理地分配网络资源成为一个重要的研究难题。为流量请求选择最优的路径以及最佳的波长分配方案,可以降低网络的阻塞率,提高光网络的利用率。
传统的光网络路由问题方法(Zang,Hui,Jason P.Jue,and BiswanathMukherjee.A review of routing and wavelength assignment approaches forwavelength-routed optical WDM networks.Optical networks magazine 1.1(2000):47-60.)一般采用启发式的分配策略,这些启发式的策略大都是基于研究者的认知,在少部分信息基础上制定一些分配的规则。例如考虑路径距离,分配最短的路径从而尽可能占用最少的网络资源;或者考虑繁忙程度,分配最繁忙的波长从而使留下空闲的波长支持长距离的通信等。这类的方法的局限在于无法考虑影响光网络性能的众多因素,难以普遍性突破性地改善网络资源分配的性能。
目前,深度强化学习(DRL)在自我学习上表现卓越,有很多工作将强化学习应用于解决光网络路由问题。将光网络路由分配建模成一个马尔可夫决策过程(MDP),因此,可以利用建立在马尔可夫决策过程上的强化学习(RL)去进行决策的学习和优化。强化学习是机器学习的一个分支,自从Alpha Go在围棋比赛中战胜人类冠军棋手,强化学习,尤其是深度强化学习,得到了广泛关注和研究。深度强化学习是深度学习与强化学习相结合的产物,它集成了深度学习在视觉等感知问题上强大的理解力,以及强化学习的决策能力,实现了端到端学习。深度强化学习适合用在路由资源分配这一马尔可夫决策过程中,它通过智能体不断与网络环境交互,不断地试错,从而寻找越来越好的路由资源分配策略。它可以学习到不为人类所理解的联系,并且通过合理的反馈和足够的训练,达到超越人类的水平。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南师范大学,未经华南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110721280.5/2.html,转载请声明来源钻瓜专利网。