[发明专利]一种基于强化学习的舰载网络性能自优化方法有效

申请号：	202010681817.5	申请日：	2020-07-15
公开（公告）号：	CN111756634B	公开（公告）日：	2022-10-14
发明（设计）人：	罗威;江昊;吴静;朱博;肖鹏博	申请（专利权）人：	中国舰船研究设计中心
主分类号：	H04L45/00	分类号：	H04L45/00;H04L45/30;H04L43/0829;H04L43/0852;H04L43/0882;H04L47/12;H04L67/12;G06N3/04
代理公司：	湖北武汉永嘉专利代理有限公司 42102	代理人：	胡建平;李丹
地址：	430064 湖***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于强化学习舰载网络性能优化方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于强化学习的舰载网络性能自优化方法，其特征在于，包括以下步骤：

1)实时对数据流量的网络状态进行监控并收集网络状态，获取大象流到来时的当前网络状态；所述网络状态包括链路时延、分组丢失率、链路带宽利用率；

2)通过对流表分组头域中的ToS字段进行分析，识别数据流量的业务类型；所述业务类型包括会话类业务、流媒体业务、交互类业务和数据类业务；

3)对流表项Action字段进行统计得到大象流的源地址和目的地址，确定调度路径集合；所述调度路径集合决定了业务流量在网络中的所有可行路径范围；

4)将大象流的网络状态、流量的业务类型和调度路径集合作为输入，训练深度强化学习模型，获得调度路径的深度强化学习模型；

4.1)将大象流的网络状态、流量的业务类型和调度路径集合信息按照深度强化学习网络需要的输入格式进行整理，存入经验记忆池中；

4.2)在强化学习中，通过给大量带有标签的数据训练神经网络，实现输入状态s，由神经网络输出积累回报Q值或者直接输出最佳动作；在训练网络时从经验记忆池中抽取训练样本进行学习，过程如下：

当大量标签数据存储在经验记忆池中后，开始训练神经网络，深度神经网络是替代近似值函数的，用奖励值来进行训练，迭代更新神经网络参数；

定义一个损失函数，L(θ)＝E[(TargetQ-Q(s,a；θ))²]，θ为网络神经网络参数，通过使用随机梯度下降方法更新网络参数，当损失函数收敛以后，深度强化学习模型完成训练；

5)输入网络当前状态和流量源/目的地址以及业务类型，通过深度神经网络的计算输出全局最优路径解；

6)当全局最佳路径确定后，生成新的大象流的转发路由，实现大象流的重路由。

2.根据权利要求1所述的基于强化学习的舰载网络性能自优化方法，其特征在于，所述步骤1)中获取大象流到来时的当前网络状态是利用sFLow技术实施收集网络状态，在边缘交换机检测进入网络的大象流。

3.根据权利要求1所述的基于强化学习的舰载网络性能自优化方法，其特征在于，所述步骤4.1)中强化学习网络需要的输入由4个部分构成：状态s，动作a，状态转移概率P和奖励值r，策略π：S→A表示状态空间到动作空间的映射；工作流程为，t时刻智能体感知环境状态为s_t，根据策略π执行动作a_t，环境以一定概率P转移到下个状态s_t+1，并且同时获得环境对此动作的反馈奖励值r_t，通过调整策略π使累积的奖励值最大；

参数状态s由网络链路可用带宽和业务流源/目的地址以及业务类型共同确定，网络所有链路可用带宽组成的矩阵反映出当前网络资源的消耗状态，是用来形容和评价网络状态的一个指标，以此来区分和识别不同时刻的网络状态；

动作空间a由业务流量的所有可行路径组成，当网络拓扑和业务流源/目的地址确定时，确定网络中可行的路径集合，a_t表示利用奖励函数计算得到最大奖励值所对应的执行动作，即大象流可选的路径集合路中的最优解；

奖励值r_t要考虑到链路时延D、可用带宽B、分组丢失率L和带宽利用率U这几个因素，由于各因素之间有正负相关性，分别附上α、β、ω、λ4个不同的权重因子，奖励值的计算公式为：r_t＝(βB-αD-ωL-λU)×100％；

所述权重因子根据业务类型对网络各个性能参数要求进行选取；

流量调度过程以强化学习模型的形式记录存储下来，每次的流量调度经验以(s_t,a_t,s_t+1,r_t)的格式存储在经验记忆池中，等待抽样训练。

4.根据权利要求3所述的基于强化学习的舰载网络性能自优化方法，其特征在于，所述步骤4.1)中累积的奖励值通过下式计算：

其中，折扣因子γ∈[0,1]，t值越大代表更加未来的状态，在整个式子中，将来的奖励所占的权重要依次递减，越是未来的奖励，权重越小，表明相邻状态的奖励更重要。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国舰船研究设计中心，未经中国舰船研究设计中心许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010681817.5/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

H 电学

H04 电通信技术
H04L 数字信息的传输，例如电报通信

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于强化学习的舰载网络性能自优化方法有效

专利文献下载