[发明专利]长、短流量均衡传输方法、系统、存储介质、云服务器有效
申请号: | 202010234750.0 | 申请日: | 2020-03-30 |
公开(公告)号: | CN111585915B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 沈玉龙;刘家继;赵迪;何昶辉;王博;祝幸辉;景玉 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | H04L47/62 | 分类号: | H04L47/62 |
代理公司: | 西安长和专利代理有限公司 61227 | 代理人: | 黄伟洪 |
地址: | 710071 陕西省*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 流量 均衡 传输 方法 系统 存储 介质 服务器 | ||
1.一种长、短流量均衡传输方法,其特征在于,所述长、短流量均衡传输方法包括:
第一步,构建数据中心长、短流量均衡传输方法的深度强化学习架构;
第二步,短流量实时性优化,依据基于强化学习的多级队列阈值优化方法改善实时性短流量传输延迟;
第三步,利用概率选择传输策略,并初始化概率,根据决策概率执行已选择的传输策略;
第四步,决策概率动态调整,用于迭代更新传输策略以适应数据中心流量类型变化,实现长、短流量均衡传输;
所述深度强化学习架构包括:
状态:建立状态空间S,每个状态si为第i步中智能体选择执行多级队列阈值优化方法的概率,决策状态表示为:
S=(s1,s2,…,sn);
其中0<si<1;
动作空间:网络传输策略决策模型的动作空间为策略选择概率p的变化量Δp,模型动作空间为:
A=(Δp1,Δp2,…,Δpn);
动作数量n∈[1,100];
奖励:衡量决策动作的好坏,网络传输决策模型的奖励为一轮学习过程结束后,每个时隙中所得的流量完成时间的平均值Γt与上一轮学习得到的时间平均值Γt-1的比值,衡量决策动作的好坏利用短流量与长流量在传输过程所占流量的权重计算奖励值r,设置优化长、短流量的权重分别为ω和υ,奖励r的计算公式为:
所述基于强化学习的多级队列阈值优化方法改善实时性短流量传输延迟包括:监测数据中心流量,获取流量分布,并依此流量大小分布计算出多级队列降级阈值,初始化阈值,再通过强化学习方式细粒度的调整阈值的大小,划分数据包传输优先级;
所述依据决策概率执行传输策略包括:根据流量类型进行传输策略选择,选择过程利用概率体现,并按照概率执行已选择的传输策略,在策略选择与执行模块,首先利用决策概率生成器随机生成初始概率,利用深度强化学习中的DQN方法更新概率;根据概率,选择不同传输策略,包括是否执行基于强化学习的多级队列阈值优化方法;
所述决策概率动态更新包括以下步骤:
步骤一:初始化训练样本经验池D,同时初始化深度强化学习中主Q网络与目标Q网络;
步骤二:根据当前数据中心网络传输策略状态,初始化策略决策概率s;
步骤三:利用动作选择策略ε-greedy选择动作Δp,作为决策概率变化量,智能体执行动作Δp,调整概率状态为s′;
步骤四:根据系统需求,将本轮迭代时间分为n个时隙,在第i个时隙开始时,从区间[0,1]中随机取数值m;当数值m≤s′时,系统执行基于强化学习的多级队列阈值优化策略;当数值m>s′时,系统卸载阈值优化策略,还原数据中心网络初始传输状态,同时存储每个时隙流量完成时间;
步骤五:累计全部时隙的流量完成时间,计算迭代过程流量平均完成时间与奖励r,将此次训练样本(s,Δp,r,s′)存储在经验池D中;
步骤六:根据当前概率状态s′与奖励r,计算目标Q值函数Yj,利用梯度下降方法更新值函数参数。
2.一种接收用户输入程序存储介质,所存储的计算机程序使电子设备执行权利要求任意一项所述包括下列步骤:
第一步,构建数据中心长、短流量均衡传输方法的深度强化学习架构;
第二步,短流量实时性优化,依据基于强化学习的多级队列阈值优化方法改善实时性短流量传输延迟;
第三步,利用概率选择传输策略,并初始化概率,根据决策概率执行已选择的传输策略;
第四步,决策概率动态调整,用于迭代更新传输策略以适应数据中心流量类型变化,实现长、短流量均衡传输。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010234750.0/1.html,转载请声明来源钻瓜专利网。