[发明专利]一种基于图卷积神经网络与深度强化学习的负载均衡方法有效
申请号: | 202110819823.7 | 申请日: | 2021-07-20 |
公开(公告)号: | CN113572697B | 公开(公告)日: | 2023-09-22 |
发明(设计)人: | 吴立军;曾祥云 | 申请(专利权)人: | 电子科技大学 |
主分类号: | H04L47/125 | 分类号: | H04L47/125;H04L47/10;H04L41/16;G06N3/092;H04L41/40;G06N3/0464;G06N3/042 |
代理公司: | 北京艾格律诗专利代理有限公司 11924 | 代理人: | 谢毅 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 图卷 神经网络 深度 强化 学习 负载 均衡 方法 | ||
1.一种基于图卷积神经网络与深度强化学习的负载均衡方法,用于SDN数据中心网络,其特征在于,所述基于图卷积神经网络与深度强化学习的负载均衡算法包括:
获取网络状态无向图;
获取流信息;
获取训练后的DQN决策模型;
将所述流信息以及所述网络状态无向图输入至所述DQN决策模型从而获取决策动作;
所述获取网络状态无向图包括:
获取网络的链路信息,所述链路信息包括链路负载信息;
获取交换机的负载信息、延迟信息以及丢包率信息;
根据所述网络的链路信息以及交换机的负载信息、延迟信息以及丢包率信息生成所述网络状态无向图;
所述网络的链路负载信息包括:
获取预设时间段内的网络的各时间点的链路负载平均信息;
所述交换机的负载信息、延迟信息以及丢包率信息包括:
获取预设时间段内的网络的各时间点的负载平均信息;
获取预设时间段内的网络的各时间点的延迟平均信息;
获取预设时间段内的网络的各时间点的丢包率平均信息;
所述DQN决策模型包括三层图卷积神经网络以及两层卷积神经网络;
所述DQN决策模型采用了多奖励因子评估奖励,其中,多奖励因子评估奖励包括链路利用率的变化信息、延迟信息,丢包率信息以及平均负载信息;其中,
r=factor1*α+factor2*β+factor3*γ+factor4*θ (1)
factori=nori-(curFaci-lastFaci) (2)
如式(1),我们使用4个factor分别乘上系数α,β,γ和θ来得出最终的奖励;对于每个factor,我们的计算步骤如公式(2),每个factor的计算都类似,factori代表第i个factor得奖励值,nori代表前面所有时刻factori变化值的均值,curFaci与lastFaci分别代表当前时刻与上个时刻该factor的实际值,我们用curFaci-lastFaci计算当前时刻factor的变化值,再用nori减去此变化值得到该factor的奖励数值factori;在公式(3)中,对每一个step,我们都根据该式更新每个factor的变化值均值(nori),最终我们的reward总计算公式如式(4)。
2.如权利要求1所述的基于图卷积神经网络与深度强化学习的负载均衡方法,其特征在于,所述将所述流信息以及所述网络状态无向图输入至所述DQN决策模型从而获取分流决策动作包括:
将所述流信息以及所述网络状态无向图输入至所述DQN决策模型;
所述DQN决策模型根据所述流信息以及所述网络状态无向图获取Q值表;
获取流信息中的源交换机地址以及目标交换机地址;
根据所述源交换机地址以及目标交换机地址获取动作集;
根据所述Q值表以e贪心策略从动作集中选择动作作为决策动作。
3.如权利要求2所述的基于图卷积神经网络与深度强化学习的负载均衡方法,其特征在于,在所述将所述流信息以及所述网络状态无向图输入至所述DQN决策模型从而获取决策动作之后,所述基于图卷积神经网络与深度强化学习的负载均衡方法进一步包括:
获取执行所述决策动作后的网络状态;
根据所述决策动作后的网络状态获取奖励信息;
将所述执行所述决策动作后的网络状态以及奖励信息存储至训练用数据库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110819823.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:异常流量的检测方法和装置、电子设备、存储介质
- 下一篇:尾气能量回收系统