[发明专利]一种基于多智能体深度强化学习的虚拟光网络映射方法有效
申请号: | 202010373661.4 | 申请日: | 2020-05-06 |
公开(公告)号: | CN111585811B | 公开(公告)日: | 2022-09-02 |
发明(设计)人: | 朱睿杰;王培森;李羽蒙;李世华;李亚飞;徐明亮 | 申请(专利权)人: | 郑州大学 |
主分类号: | H04L41/14 | 分类号: | H04L41/14;H04L45/12;G06N3/04;G06N3/08 |
代理公司: | 郑州优盾知识产权代理有限公司 41125 | 代理人: | 栗改 |
地址: | 450001 河南*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 智能 深度 强化 学习 虚拟 网络 映射 方法 | ||
1.一种基于多智能体深度强化学习的虚拟光网络映射方法,其特征在于,其步骤如下:
步骤一:执行底层物理网资源调度更新算法,在虚拟网请求业务到达时间,判断此时刻环境模块中底层物理网是否有其他虚拟网业务离去,若有,环境模块执行资源释放算法,对要离去的虚拟网请求业务占用的节点与链路资源进行释放,更新完成后进行节点选择;若无其他虚拟网请求业务离去,则直接进行节点选择;
步骤二:对虚拟网请求业务面对的当前物理网的节点与链路信息进行提取:节点智能体提取底层物理网所有节点及其周围链路的特征信息组成特征矩阵M,特征矩阵M作为节点状态输入节点智能体模块;链路智能体从环境中提取源节点和目的节点间的链路特征信息组成特征向量V,特征向量V作为链路状态输入链路智能体模块;
步骤三:节点智能体模块利用节点策略网络对输入的特征矩阵进行计算,得到物理网每个节点为当前虚拟网请求业务提供映射的概率分布,通过e-贪心算法和概率分布选取合适的节点作为当前虚拟网请求业务要映射到的节点;最后判断虚拟网节点是否映射成功,若物理节点计算资源够用则虚拟节点映射成功,记录下映射成功的节点动作;反之则映射失败;
步骤四:链路智能体模块把同一虚拟网请求中成功映射的所有节点动作分批次接受,同时把当前映射的物理网源节点与目的节点同步骤二中获取的链路状态作为链路策略网的输入,并通过链路策略网的计算源节点与目的节点间的最短路径的频槽概率选择分布,并选择出合适的频槽块来满足链路请求资源,若选择的可用的频槽块支持虚拟网请求业务的带宽资源,则该最短路径对应的链路映射成功,否则当前虚拟网请求业务映射失败;
步骤五:经过步骤三和步骤四中执行的节点动作与链路动作的映射结果,评判模块依次得到从环境模块中获得的即时奖励,在一个步长中重复步骤一到步骤四,由即时奖励计算多步映射的累加奖励;
步骤六:评价模块根据累加奖励计算节点动作和链路动作的评价值,链路智能体和节点智能体均接受评价模块根据评价函数计算出的评价值,当有多个虚拟网请求业务时,评价模块根据评价值对智能体模块的参数进行更新。
2.根据权利要求1所述的基于多智能体深度强化学习的虚拟光网络映射方法,其特征在于,所述步骤一中底层物理网资源调度更新算法的实现方法为:
(1)环境模块建立时间轴T,每个事件刻度加1,下一时间刻度为T+1,建立离去业务队列D,每当有虚拟网请求业务到达时,把当前虚拟网请求业务添加到离去业务队列D,并按离去时间Tl由小到大排序;
(2)环境模块从时间刻度0开始,到最后一个虚拟网请求业务离去时间为止,每个时间刻度都对离去业务队列D中的第一个虚拟网请求业务R′的离去时间进行判断,若当前时刻T≥Tl,则对虚拟网请求业务R′占用的物理网节点与链路资源进行删除;否则T+1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州大学,未经郑州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010373661.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:电动摆线转子泵及其制造方法
- 下一篇:无人值守行车抓取安全检测方法