[发明专利]一种基于强化学习和SDN的负载均衡系统有效

申请号：	202210054091.1	申请日：	2022-01-18
公开（公告）号：	CN114500386B	公开（公告）日：	2023-05-30
发明（设计）人：	郭永安;吴庆鹏;张啸;佘昊;钱琪杰	申请（专利权）人：	南京邮电大学
主分类号：	H04L47/125	分类号：	H04L47/125
代理公司：	南京经纬专利商标代理有限公司 32200	代理人：	周科技
地址：	210003 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于强化学习 sdn 负载均衡系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于强化学习和SDN的负载均衡系统，其特征在于：该系统包含一个网络信息获取模块、一个强化学习模块、一个网络管理模块；

所述网络信息获取模块用于利用SDN获取全局网络信息，从中提取当前网络信息特征，并按照一定规则生成当前奖励值，将提取出的当前网络信息特征和生成的当前奖励值发送到强化学习模块；

所述网络信息获取模块包括一个网络信息获取子模块，一个网络信息特征提取子模块、一个奖励值生成模块、一个信息发送模块；

所述网络信息获取子模块用于从SDN的数据平面网络中获取当前的网络状态信息；该模块位于SDN的控制平面，通过OpenFlow协议获取底层网络信息；

所述网络信息特征提取子模块用于从网络信息获取子模块获取的当前网络状态信息中提取当前网络信息特征，所述当前网络信息特征包含网络节点之间的流量矩阵、负载情况以及数据丢包率；

所述奖励值生成模块用于将当前网络信息特征按照一定规则生成当前奖励值；所述规则由网络管理员进行制定；

所述信息发送模块用于将所述当前网络信息特征和所述当前奖励值发送到强化学习模块；

其中，当前网络信息特征提取和当前奖励值生成，执行如下操作：

网络信息获取子模块获取当前网络状态信息；

网络信息特征提取子模块提取当前网络信息特征s_i，s_i是i时刻链路上各种业务流的流量矩阵、负载情况以及丢包率的集合；即

s_i＝[T₁,T₂,…,T_n,L|P]

其中T_n是第n种业务在网络中的流量矩阵；L是SDN网络中的负载矩阵；P是SDN网络中的丢包率；即

P＝[P₁,P₂,…,P_r]^T，

其中，f_1m是交换机1到交换机m传输的流量大小；l_1k是交换机1到交换机k连接链路的实时负载；P_r是第r种业务的丢包率；

奖励值生成子模块基于当前网络信息特征生成当前奖励值；奖励表示前一网络状态下即集合s_i-1所在的状态下，系统执行动作后获得的回报值；所述动作为系统根据网络负载分配方式进行重新计算和下发的过程；

所述强化学习模块用于将从网络信息获取模块接收到的当前网络信息特征和当前奖励值进行记录，并将当前网络信息特征、当前奖励值、当前网络负载分配方式、历史网络信息特征和历史奖励值、历史网络负载分配方式利用强化学习进行计算，强化学习模块位于SDN网络的控制平面即服务器当中，以提高奖励值为目标，改变历史网络负载分配方式，形成当前最优网络负载分配方式；

所述网络管理模块用于将强化学习模块生成的当前最优网络负载分配方式写入流表并下发到网络当中。

2.根据权利要求1所述的基于强化学习和SDN的负载均衡系统，其特征在于：所述强化学习模块包含一个信息接收子模块、一个智能学习子模块和一个历史数据存储子模块；

所述信息接收子模块用于接收来自网络信息获取模块的当前网络信息特征和当前奖励值；

所述智能学习子模块用于将当前网络信息特征和当前奖励值、历史网络信息特征和历史奖励值进行学习，并结合历史网络负载分配方式，以提高未来奖励值为目的，模拟出当前最优网络负载分配方式；

所述历史数据存储子模块用于存放历史网络信息特征和历史奖励值以及两者对应的历史网络负载分配方式。

3.根据权利要求1所述的基于强化学习和SDN的负载均衡系统，其特征在于：所述网络管理模块包含一个网络负载分配方式写入子模块和一个流表下发子模块；

所述网络负载分配方式写入子模块用于将强化学习模块模拟出的当前最优网络负载分配方式写入表中；

所述流表下发子模块用于将新的流表下发到网络中。

4.根据权利要求2所述的基于强化学习和SDN的负载均衡系统，其特征在于：强化学习模块生成最优负载分配方式步骤如下：

步骤301：信息接收子模块接收来自网络信息获取模块的当前网络信息特征s_t和当前奖励值r_t；

步骤302：获取历史数据存储子模块中的历史网络信息特征s_i和历史奖励值r_i以及两者对应的历史网络负载分配方式即动作a_i；

步骤303：根据当前网络信息特征、奖励值以及当前的负载分配方式，历史的网络信息特征、历史奖励值以及历史负载分配方式，以提高奖励值为目标，使用强化学习算法更新下一时刻的负载分配方式；