[发明专利]一种基于逆强化学习的数据中心流量调度方法有效
申请号: | 202210936242.6 | 申请日: | 2022-08-05 |
公开(公告)号: | CN115314399B | 公开(公告)日: | 2023-09-15 |
发明(设计)人: | 李云春;裴俊鹏;李巍 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | H04L41/142 | 分类号: | H04L41/142;H04L41/14;H04L47/50 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 安丽;顾炜 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 数据中心 流量 调度 方法 | ||
1.一种基于逆强化学习的数据中心流量调度方法,其特征在于,包括如下步骤:
(1)首先基于马尔可夫决策过程对数据中心网络中流环境进行建模,并初始化逆强化学习中策略网络和奖励函数网络,将数据中心网络中具有相同移动方向的一组数据包称为网络流flow,对发送的网络流进行状态设计,对分发网络流设备的多级反馈队列阈值进行动作设计,周期性地从数据中心网络中流环境中获取状态信息,基于策略网络选择动作设置分发网络流设备的多级反馈队列阈值;
所述状态设计实现为:利用已发送但未完成传输的网络流flow信息表示,描述当前的网络环境,每个网络流flow使用{id,width,sent,duration}来描述,其中id是源IP地址、源端口、目的IP地址、目的端口号的hash值,width是网络流flow中包含数据包的数量,sent是网络流flow已发送字节数,duration是网络流flow的传输时间,t时刻网络环境状态矩阵为:
所述动作设计实现为:动作设计为多级反馈队列的阈值,对于K个队列组成的多级反馈队列,在时刻t执行的动作at={th1,th2,…,thK-1},动作是一个K-1维连续空间,th1,th2,…,thK-1为每个队列的阈值;
(2)收集网络环境中已经发送完成的网络流flow,利用专家算法生成专家样本,放入专家样本池中;
(3)对逆强化学习中策略网络和奖励函数网络进行对抗训练,使得策略网络根据网络环境设置多级反馈队列阈值的动作不断学习模仿专家算法中隐含的专家策略,实现根据网路环境的变化动态设置多级反馈队列阈值,达到降低平均完成时间的目的。
2.根据权利要求1所述的基于逆强化学习的数据中心流量调度方法,其特征在于,所述步骤(2)具体包括以下步骤:
(21)在网络流flow发送完成后,将网络流flow标识、网络流flow开始时间、网络流flow的发送节点、接收节点以及网络流字节数大小信息以Trace的形式收集起来,在后续生成专家样本时进行回放;
(22)采用有先验知识的多队列最小流优先算法,假设多级反馈队列的阈值已经设置,在有先验知识的场景下网络流flow总字节数大小已知,根据flow总字节数大小szf,按照多级反馈队列阈值为flow分配优先级,当thp≤szfthp+1时,thp为队列p的阈值,thp+1为队列p+1的阈值,为其分配优先级p,不同队列的优先级分配服从最小flow优先原则,同一个队列中的网络流flow按照FIFO方法调度;
(23)利用模拟器对Trace数据进行回放,根据已发送flow的总字节数,找到最优调度性能下的阈值aF作为动作,采用的动作为固定大小的阈值,根据状态选取动作的映射作为专家策略,根据网络环境信息抽象出状态sE,利用多队列最小流优先算法,将网络中活跃网络流flow分配不同的优先级,当flow的已发送字节数大于等于thp小于thp+1时,为其分配队列优先级p,改变网络的状态,同时采用核密度估计方法将固定的阈值动作aF转化为策略动作aE,将采用有先验知识的多队列最小流优先算法生成的状态动作对(sE,aE)作为专家样本存入专家样本池。
3.根据权利要求1所述的基于逆强化学习的数据中心流量调度方法,其特征在于,所述步骤(3)具体包括以下步骤:
(31)策略网络根据t时刻网络环境st生成动作at来调节多级反馈队列阈值,生成策略网络样本数据(st,at),影响flow的队列优先级,进而导致网络环境状态的变化;
(32)奖励函数网络根据策略网络的状态st和动作at生成奖励值rt+1,同时利用多队列最小流优先算法专家样本数据为(sE,aE),sE为网络环境,aE为阈值动作,判别策略网络样本数据(st,at)和专家样本的差异,通过该差异对奖励函数网络进行修正训练,使得奖励函数不断接近专家样本中潜在的奖励函数;
(33)将策略网络π和奖励函数网络D的训练过程作为二者的博弈,其目标函数LGAIL(π,D)表示为:
其中,D(s,a)表示策略网络判别状态动作对(s,a)由专家策略πE产生的概率,当逆强化学习收敛后,奖励函数网络D准确判断生成策略网络生成的样本是否服从专家样本分布,奖励函数网络D的训练目标为最大化博弈目标函数LGAIL(π,D);策略网络π将奖励函数网络D(s,a)作为奖励函数,以指导模型训练,通过生成样本反馈调节奖励函数网络D,使得生成样本分布不断逼近专家策略πE的样本分布;最后奖励函数网络拟合出专家样本中潜在的奖励函数,策略网络通过学习专家策略面对不同的网络环境自动调节多级反馈队列的阈值,以达到降低平均网络流flow完成时间的目的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210936242.6/1.html,转载请声明来源钻瓜专利网。