[发明专利]一种高并发平台数据队列优化方法在审
申请号: | 202211367828.1 | 申请日: | 2022-11-02 |
公开(公告)号: | CN115801681A | 公开(公告)日: | 2023-03-14 |
发明(设计)人: | 江福椿;冯陈伟;刘中明 | 申请(专利权)人: | 厦门一联时代科技有限公司 |
主分类号: | H04L47/12 | 分类号: | H04L47/12;G06N3/092 |
代理公司: | 厦门致群财富专利代理事务所(普通合伙) 35224 | 代理人: | 巫其荣 |
地址: | 361000 福建省厦门市中国(福建*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 并发 平台 数据 队列 优化 方法 | ||
1.一种高并发平台数据队列优化方法,其特征在于,包括以下步骤:
S1、基于主动队列管理AQM中的RED算法,引入强制学习控制器,建立RLIQM控制器;
S2、RLIQM控制器根据不同的网络场景,自适应地选择合适的参数进行优化设置;
S3、通过优化设置后的RLIQM控制器,获得最优的网络策略,并对高并发平台数据队列进行优化。
2.如权利要求1所述的高并发平台数据队列优化方法,其特征在于,步骤S1中所述RLIQM控制器包括发送方、路由器队列、强制学习控制器和接收方;所述RLIQM控制器的数据处理过程为:
S11、所述发送方将数据发送到路由器队列;
S12、作为代理的强制学习控制器收集路由器队列中当前时刻环境状态st∈S,根据策略π选择动作a∈A来执行,同时环境状态随之变化成为s'∈S,并产生当前时刻t的反馈信号;
S13、将回报值r反馈回强制学习控制器,控制器将根据回报值r和环境状态s'更新动作策略π;
S14、通过不断迭代,使强制学习控制器获取每个状态s∈S下的最佳策略π*(s)∈A。
3.如权利要求2所述的高并发平台数据队列优化方法,其特征在于,步骤S14中所述最佳策略π*(s)∈A的具体获取过程为:
其中,γ∈[0,1)为折扣因子,依据Bellman准则进行求解,式(1)最大值为:
其中,R(s,a)表示r(st,at)的期望;Ps,s'(a)是状态转移概率,代表环境状态s在动作a的作用下到达下一个状态s'的概率;
将策略π下的Q(s,a)用Qπ(s,a)表示为:
在最优决策条件下有:
根据式(2)与(3),则得出:
基于Q学习的强化学习算法,通过以下的迭代方式获得每个时刻的Q值:
其中,α∈[0,1)为学习率,当t→∞,若α能逐渐趋向为0,则Qt(s,a)将收敛于最优值Q*(s,a),利用式(4),作为代理的强制学习控制器得到最优策略π*(s)∈A。
4.如权利要求3所述的高并发平台数据队列优化方法,其特征在于,步骤S2的具体过程为:
S21、将状态S定义为网络状态s(avg,△avg)的集合,其中avg为缓冲区平均队列长度,△avg为缓冲区平均队列长度的变化量;将动作A定义为最大丢弃概率maxp的集合,r是即时的回报值;
S22、在每轮学习时,强制学习控制器收集当前的网络状态s,然后结合Q值表数值以及相对应的动作选择策略来配置最大丢包率maxp,在网络的状态发生变化后,由s(avg,△avg)→s'(avg',△avg'),计算得到在当前时刻下的动作a(maxp),并通过动作a(maxp)获取回报值r,据此对当前状态-动作对(s,a)所对应的Q值进行更新,对上述过程进行多轮的学习与迭代,直到获得完善后的Q值表,并将完善后的Q值表存储用作后续策略调整的参考依据;
S23、将强制学习控制器中的状态s(avg,△avg)量化为14×10个等级,即S={si,j}={avgi,△avgj},i=1,2,3…14,j=1,2,3…10,同样,将动作a(maxp)也对应的分为14个等级,即A={an},n=1,2,3…13,maxp0,其中maxp0表示最大丢弃概率值,通过分级的方式设计特定的参数配置;
S24、定义效用函数,如下:
Utility=δlogTave-ηlogDave (8)
其中,δ为网路吞吐量;η为网路延迟;Tave为系统平均吞吐量;Dave为系统平均延迟;
在RLIQM控制器的学习过程中,通过状态-动作对(s,a)的回报值r来衡量执行的效果,如下:
根据回报值r,优化设置参数δ和η。
5.如权利要求4所述的高并发平台数据队列优化方法,其特征在于,步骤S3中的RLIQM控制器在每次新分组到达时开始进行学习迭代,具体过程为:
S31、参数初始化:初始化Q值表,设定折扣因子γ、初始学习率α0和初始探索概率ε0;
S32、获取当前网络状态参数:当新分组到达时,生成当前时刻的状态参数s(avg,△avg);
S33、选择执行动作策略:根据当前时刻状态下的s(avg,△avg)以及各动作对应的Qt(s,a),依据ε贪婪策略选择一个动作策略进行执行;
S34、获得当前回报值r:路由器根据当前最新的丢弃概率函数,执行数据包丢弃,根据式(9)得到对状态-动作对(s,a)的回报值r;
S35、获取新网络状态下参数并更新Q值表:根据当前网络状态,获取s'的最优值再利用式(7)更新Qt(s,a);
S36、更新参数:每轮迭代后,更新学习率α和探索概率ε;
S37、判断收敛性:判断Q函数值是否收敛,若还未收敛,则返回重新获取网络状态参数,重新进行迭代学习;若已收敛,则以当前Q值表作为状态选择动作的依据,获得最优的网络策略,对高并发平台数据队列进行优化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门一联时代科技有限公司,未经厦门一联时代科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211367828.1/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置