[发明专利]一种高并发平台数据队列优化方法在审

专利信息
申请号: 202211367828.1 申请日: 2022-11-02
公开(公告)号: CN115801681A 公开(公告)日: 2023-03-14
发明(设计)人: 江福椿;冯陈伟;刘中明 申请(专利权)人: 厦门一联时代科技有限公司
主分类号: H04L47/12 分类号: H04L47/12;G06N3/092
代理公司: 厦门致群财富专利代理事务所(普通合伙) 35224 代理人: 巫其荣
地址: 361000 福建省厦门市中国(福建*** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 并发 平台 数据 队列 优化 方法
【权利要求书】:

1.一种高并发平台数据队列优化方法,其特征在于,包括以下步骤:

S1、基于主动队列管理AQM中的RED算法,引入强制学习控制器,建立RLIQM控制器;

S2、RLIQM控制器根据不同的网络场景,自适应地选择合适的参数进行优化设置;

S3、通过优化设置后的RLIQM控制器,获得最优的网络策略,并对高并发平台数据队列进行优化。

2.如权利要求1所述的高并发平台数据队列优化方法,其特征在于,步骤S1中所述RLIQM控制器包括发送方、路由器队列、强制学习控制器和接收方;所述RLIQM控制器的数据处理过程为:

S11、所述发送方将数据发送到路由器队列;

S12、作为代理的强制学习控制器收集路由器队列中当前时刻环境状态st∈S,根据策略π选择动作a∈A来执行,同时环境状态随之变化成为s'∈S,并产生当前时刻t的反馈信号;

S13、将回报值r反馈回强制学习控制器,控制器将根据回报值r和环境状态s'更新动作策略π;

S14、通过不断迭代,使强制学习控制器获取每个状态s∈S下的最佳策略π*(s)∈A。

3.如权利要求2所述的高并发平台数据队列优化方法,其特征在于,步骤S14中所述最佳策略π*(s)∈A的具体获取过程为:

其中,γ∈[0,1)为折扣因子,依据Bellman准则进行求解,式(1)最大值为:

其中,R(s,a)表示r(st,at)的期望;Ps,s'(a)是状态转移概率,代表环境状态s在动作a的作用下到达下一个状态s'的概率;

将策略π下的Q(s,a)用Qπ(s,a)表示为:

在最优决策条件下有:

根据式(2)与(3),则得出:

基于Q学习的强化学习算法,通过以下的迭代方式获得每个时刻的Q值:

其中,α∈[0,1)为学习率,当t→∞,若α能逐渐趋向为0,则Qt(s,a)将收敛于最优值Q*(s,a),利用式(4),作为代理的强制学习控制器得到最优策略π*(s)∈A。

4.如权利要求3所述的高并发平台数据队列优化方法,其特征在于,步骤S2的具体过程为:

S21、将状态S定义为网络状态s(avg,△avg)的集合,其中avg为缓冲区平均队列长度,△avg为缓冲区平均队列长度的变化量;将动作A定义为最大丢弃概率maxp的集合,r是即时的回报值;

S22、在每轮学习时,强制学习控制器收集当前的网络状态s,然后结合Q值表数值以及相对应的动作选择策略来配置最大丢包率maxp,在网络的状态发生变化后,由s(avg,△avg)→s'(avg',△avg'),计算得到在当前时刻下的动作a(maxp),并通过动作a(maxp)获取回报值r,据此对当前状态-动作对(s,a)所对应的Q值进行更新,对上述过程进行多轮的学习与迭代,直到获得完善后的Q值表,并将完善后的Q值表存储用作后续策略调整的参考依据;

S23、将强制学习控制器中的状态s(avg,△avg)量化为14×10个等级,即S={si,j}={avgi,△avgj},i=1,2,3…14,j=1,2,3…10,同样,将动作a(maxp)也对应的分为14个等级,即A={an},n=1,2,3…13,maxp0,其中maxp0表示最大丢弃概率值,通过分级的方式设计特定的参数配置;

S24、定义效用函数,如下:

Utility=δlogTave-ηlogDave (8)

其中,δ为网路吞吐量;η为网路延迟;Tave为系统平均吞吐量;Dave为系统平均延迟;

在RLIQM控制器的学习过程中,通过状态-动作对(s,a)的回报值r来衡量执行的效果,如下:

根据回报值r,优化设置参数δ和η。

5.如权利要求4所述的高并发平台数据队列优化方法,其特征在于,步骤S3中的RLIQM控制器在每次新分组到达时开始进行学习迭代,具体过程为:

S31、参数初始化:初始化Q值表,设定折扣因子γ、初始学习率α0和初始探索概率ε0

S32、获取当前网络状态参数:当新分组到达时,生成当前时刻的状态参数s(avg,△avg);

S33、选择执行动作策略:根据当前时刻状态下的s(avg,△avg)以及各动作对应的Qt(s,a),依据ε贪婪策略选择一个动作策略进行执行;

S34、获得当前回报值r:路由器根据当前最新的丢弃概率函数,执行数据包丢弃,根据式(9)得到对状态-动作对(s,a)的回报值r;

S35、获取新网络状态下参数并更新Q值表:根据当前网络状态,获取s'的最优值再利用式(7)更新Qt(s,a);

S36、更新参数:每轮迭代后,更新学习率α和探索概率ε;

S37、判断收敛性:判断Q函数值是否收敛,若还未收敛,则返回重新获取网络状态参数,重新进行迭代学习;若已收敛,则以当前Q值表作为状态选择动作的依据,获得最优的网络策略,对高并发平台数据队列进行优化。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门一联时代科技有限公司,未经厦门一联时代科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211367828.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top