[发明专利]一种基于控制论和数据驱动的自适应分流决策方法有效
申请号: | 202110060033.5 | 申请日: | 2021-01-18 |
公开(公告)号: | CN112954385B | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 朱晓荣;张柏艺 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | H04N21/231 | 分类号: | H04N21/231;H04N21/238;H04N21/2662;H04N21/6373;H04N21/647 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 徐激波 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 控制论 数据 驱动 自适应 分流 决策 方法 | ||
1.一种基于控制论和数据驱动的自适应分流决策方法,其特征在于,包括以下步骤:
步骤S1、搭建智能体播放器系统;所述智能体播放器系统输入包括采集的视频帧数据集、网络数据集和系统决策的缓冲区占用长度,输出对应的网络状态参数;
步骤S2、将步骤S1中输出的网络状态参数输入至机器学习模型进行训练,获取最优动作选择策略,即为各路径分流比例,并按照所述比例进行对应数量的视频数据分发;具体采用基于A3C算法的自适应分流决策模型,步骤如下:
所述决策模型的输入为st=(st,1,st,2,...,st,n),其中st,i表示第i条链路在第t个调度周期的状态;st,i由多个状态参数构成,具体表示如下:
st,i=(xt,i,wt,i,dt,i,ut,i,bt)
其中xt,i表示在第t个调度周期,第i条链路的平均吞吐量;wt,i表示在第t个调度周期,第i条链路的平均拥塞窗口大小;dt,i表示在第t个调度周期,第i条链路的平均往返时延;ut,i表示在第t个调度周期,第i条链路累积未确认的数据包的数量;bt表示在第t个调度周期,当前客户端缓冲区占用长度;
所述决策模型将网络即时数据保存下来,作为离线神经网络训练数据集,同时将更新后的网络参数及时同步到策略网络中;设定确定性策略μ(st):S→A;其中S,A分别表示状态集合和动作集合;基于给定状态st,算法映射相应动作空间ak=μ(st);所述动作空间由各条链路的分流比组成的向量来表示,具体如下:
ak=(p1,p2,...,pn)
其中ak表示在第t个调度周期时,第k个动作包含的决策内容;pi表示第i条链路的数据包分流比,并且当调度器根据所述确定性策略执行动作ak之后,在调度周期t+1结束时,系统状态转移到st+1,同时获得奖赏r(st,ak)如下:
r(st,ak)=Vtthroughput-αVtRTT-βVtlost
其中,表示所有n个链路的总吞吐量,表示该调度周期中所有数据包的平均往返时延,表示该调度周期中丢失的数据包总数量,α和β是影响因子,取值范围为0~1;
所述模型输出为各动作空间的出现概率,表示如下:
其中表示动作ak出现的概率;
步骤S3、根据步骤S2所得各路径分流比例,计算得到满足缓冲区动态变化模型的合适的视频码率范围;所述缓冲区动态变化模型具体如下:
缓冲区动态变化速率表示如下:
bk(t)=bk-1(t)+dc(t)-c
其中,bk(t)表示在当前时间t下载第k个视频块时的缓冲区变化速率,bk-1(t)表示第k-1个视频块下载完成时的缓冲区变化速率,dc(t)表示聚合链路当前网络下载速率,即缓冲区的输入速率,c表示视频的播放速率,即缓冲区的输出速率,为常数;将上式对时间t进行积分,可得:
Bk=Bk-1+[dc(t)-c]△t
其中B(.)表示不同时刻的缓冲区占用长度,△t表示从第k个视频块下载开始到完成时的时间间隔;当第k个视频块完全下载的时间为视频数据在各条子路径和聚合路径传输时间之和的最大值时,即可保证视频数据完全到达而不发生丢包情况;此时:
其中pi表示第i条路径的分流比,Rk(t)表示第k个视频块的码率,T表示视频块的时间,di(t)和dc(t)分别表示第i条子路径和聚合链路下载第k个视频块时的速率;
避免缓冲区上溢需要满足Bk≤qmax且dc(t)c,其中qmax表示客户端设置的缓冲区长度阈值;传输第k个视频块时决策时刻请求的码率Rk(t)满足:
各终端下载时间t满足:
其中,BT为各终端用于缓存的空间,dm(t)为下载速率最快的子路径;则各路径已下载的缓存长度则为:
此时各条子路径总的缓存区长度为:
考虑子路径和聚合链,总缓冲区长度Btot为:
因此为了不使播放端缓冲区上溢,视频码率Rk(t)需要满足下式:
同理,为了不使播放端缓冲区下溢,任意时刻的缓冲区占用都应该不低于客户端设置的缓冲区长度阈值qmin,即满足Bk≥qmin且dc(t)c;此时视频码率Rk(t)满足下式:
步骤S4、根据缓冲区阈值和缓冲区占用设计控制系统;所述控制系统通过选择满足步骤S3中要求的视频码率范围,使缓冲区占用符合预定的变化轨迹范围;具体设计系统如下:
所述控制系统的输入为缓冲区阈值q,预设的缓冲区占用长度变化区间为Bk(t)∈[qmin,qmax];所述控制系统传递函数Gc(s)的输入为预设缓冲区变化范围和实际缓冲区占用长度之间的误差,表示为e(t)=q-Bk(t),输出即为应选择的视频传输码率,表示为R(t);
然后用量化器将控制器输出的视频码率离散化,由缓冲区变化因子f(Bk)映射为已编码码率中的值,输出离散后的视频码率
在选择合适的视频码率后将视频码率作为积分器的输入;积分器1/s表示时域积分环节,对视频码率R'(t)进行时域积分从而得到控制系统的输出,即缓冲区占用长度Bk(t)。
2.根据权利要求1所述的一种基于控制论和数据驱动的自适应分流决策方法,其特征在于,所述步骤S4中控制系统输入到输出的等量关系如下:
控制系统的传递函数为:
所述比例差分控制器的传递函数为:
其中kp为比例参数,kd为微分参数;可得控制系统的传递函数为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110060033.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:抑菌除味猫砂组合物及其制备方法
- 下一篇:一种无人机高空喷漆用喷涂装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置