[发明专利]一种基于逆强化学习的数据中心流量调度方法有效

申请号：	202210936242.6	申请日：	2022-08-05
公开（公告）号：	CN115314399B	公开（公告）日：	2023-09-15
发明（设计）人：	李云春;裴俊鹏;李巍	申请（专利权）人：	北京航空航天大学
主分类号：	H04L41/142	分类号：	H04L41/142;H04L41/14;H04L47/50
代理公司：	北京科迪生专利代理有限责任公司 11251	代理人：	安丽;顾炜
地址：	100191***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于强化学习数据中心流量调度方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提出一种基于逆强化学习的数据中心流量调度方法，使用马尔可夫决策过程对网络环境进行建模，周期性地从网络环境中获取状态信息，基于策略选择动作设置多级反馈队列的阈值。针对人工设置奖励值函数难以直接优化目标的问题，采用逆强化学习的方法将人工设置奖励值函数改为奖励函数网络进行拟合，根据专家策略生成的专家样本训练奖励函数网络生成奖励值来指导策略网络，使得策略网络能够学习专家策略，最终训练策略网络实现动态调整多级反馈队列阈值，降低网络流的平均完成时间。

技术领域

本发明涉及数据中心资源管理，更具体地，涉及一种基于逆强化学习的数据中心流量调度方法。

背景技术

近年来，随着数据的爆炸式增长，数据中心数据存储、计算分析成为当今的热点问题，各个应用之间的交互需要网络来传递信息，因此提高部署在数据中心的计算集群的网络通信性能具有重要意义。

在网络中一组具有相同移动方向的数据包被称作网络流(flow)，在数据中心网络中以flow为基本调度单元，可以针对应用的需求优化通信性能。目前网络流常用的调度算法是FIFO和优先级队列等，在优先级队列中有一种多级反馈队列(Multiple LevelFeedback Queue，MLFQ)的方法，使用多个优先级队列根据flow的已发送字节数分配不同的优先级，不同队列之间通过阈值进行划分，进而决定flow的调度顺序，然后根据网络拓扑计算出每条数据流的传输速率。

现有的flow调度大多是基于粗粒度网络模型的启发式调度方法，往往只能针对特定网络场景，无法适应复杂多变的网络环境。在CN111740925A《一种基于深度强化学习的Coflow调度方法》中采用深度强化学习的方法来针对复杂的网络环境进行建模，根据环境信息动态地设置多级反馈队列的阈值，以达到根据网络变化自动调整Coflow调度的目的。但是该方法中奖励函数是根据Coflow平均持续时间的变化定义的，在复杂多变的网络环境中，这种奖励函数的设计往往需要花费大量的时间和精力，并且从长远来看这种单步反馈的奖励函数不一定能很好地直接优化目标。

发明内容

本发明技术解决问题：克服现有技术的不足，提出一种基于逆强化学习的数据中心流量调度方法，使用马尔可夫决策过程对网络环境进行建模，周期性地从网络环境中获取状态信息，基于策略选择动作设置MLFQ的阈值。针对人工设置奖励值函数难以直接优化目标的问题，利用逆强化学习的方法，通过专家算法中潜在的专家策略π_E生成专家样本训练奖励函数网络D生成奖励值来指导策略网络π，使得策略网络能够模仿专家策略，最终训练策略网络实现根据网络变化动态调整MLFQ阈值，降低网络流的平均完成时间。

本发明技术解决方案：一种基于逆强化学习的数据中心流量调度方法，应用于数据中心资源管理，包括以下步骤：

步骤1、首先基于马尔可夫决策过程对数据中心网络中流调度环境进行建模，并初始化逆强化学习中策略网络和奖励函数网络，将网络中具有相同移动方向的一组数据包称为网络流flow，对发送的网络流进行状态设计，对分发网络流设备的多级反馈队列阈值进行动作设计，周期性地从网络环境中获取状态信息，基于策略网络选择动作设置分发网络流设备的多级反馈队列阈值。

步骤2、收集网络环境中已经发送完成的网络流，利用专家算法生成专家样本，放入专家样本池中；

步骤3、对逆强化学习中策略网络和奖励函数网络进行对抗训练，使得策略网络根据网络环境设置多级反馈队列阈值的动作不断学习模仿专家算法中隐含的专家策略，实现根据网路环境的变化动态设置多级反馈队列阈值，达到降低平均完成时间的目的。

进一步地，所述步骤1，其中对数据中心网络中流调度环境的建模包括：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京航空航天大学，未经北京航空航天大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210936242.6/2.html，转载请声明来源钻瓜专利网。

上一篇：一种采用LC-MS法检测血浆中替米沙坦氨氯地平的方法
下一篇：基于自适应光学预处理的涡旋光通信发射装置

同类专利

专利分类

H 电学

H04 电通信技术
H04L 数字信息的传输，例如电报通信

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于逆强化学习的数据中心流量调度方法有效

专利文献下载