[发明专利]一种提高直播视频系统用户体验质量的方法有效
申请号: | 201910343561.4 | 申请日: | 2019-04-26 |
公开(公告)号: | CN110049315B | 公开(公告)日: | 2020-04-24 |
发明(设计)人: | 张志才;付芳 | 申请(专利权)人: | 山西大学 |
主分类号: | H04N17/00 | 分类号: | H04N17/00;H04N21/647 |
代理公司: | 太原申立德知识产权代理事务所(特殊普通合伙) 14115 | 代理人: | 郭海燕 |
地址: | 030000*** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种提高直播视频系统用户体验质量的方法,本发明旨在提高直播视频系统中用户的体验质量,在保证观看视频的质量的同时降低时间延迟。与现有文献不同,本发明将可获得的计算资源和无线频谱资源都建模为随机过程,更加逼近真实的无线通信环境。将动态系统建模为马尔科夫判决过程,由于其中的动作空间和状态空间都是连续多维的,传统的强化学习算法如深度Q学习网络和策略梯度在处理这类问题时效率较低难度较大。对此,本发明联合视频流转码策略、用户调度策略和资源分配方法,提出在线Actor‑Critic强化学习算法,在Actor部分和Critic部分都引入了资格迹,加速了学习过程。理论仿真证明其性能明显好于深度Q学习网络,收敛速度也快于策略梯度算法。 | ||
搜索关键词: | 一种 提高 直播 视频 系统 用户 体验 质量 方法 | ||
【主权项】:
1.一种提高直播视频系统用户体验质量的方法,其特征在于:包括有步骤1:将动态系统建模为马尔科夫决策过程,简称为MDP,包括S、A、P、r四个参数,其中的状态空间S包括三部分:1)移动边缘计算服务器可获得的计算资源,2)可获得的无线频谱资源,3)无线信道下行链路的信干噪比;其中的动作空间A包括四部分:1)用户调度策略,2)转码策略,3)计算资源分配策略,4)无线频谱资源分配策略;P为状态转移概率矩阵;r是回报函数,由以下步骤获得;步骤2:将直播视频流划分成若干小段,进行播放和处理,每一段的播放时间长度是L,当播放一小段视频的同时处理下一小段视频流,处理所需的时间记作Tn,k,若保证连续播放需满足Tn,k≤L,否则产生时延Dn,k;步骤3:首先移动边缘计算服务器对视频流进行转码处理,从原始的高质量视频流转到较低质量的视频流,所消耗的时间如下:
其中参数cn,k=1表示用户由小基站提供服务,cn,k=0表示用户由宏基站提供服务,
表示原始视频流,
表示用户收到的由移动边缘计算服务器转码后的视频流,
表示将视频流从
版本转码到
版本所需的计算资源,fn,k表示由序号为n的小基站的移动边缘计算服务器分配给第k个用户的计算资源;
表示由宏基站的移动边缘计算服务器分配给第k个用户的计算资源;步骤4:步骤3中对视频流转码要用到视频流的质量函数Zn,k,由下式计算得到
其中参数
和
表示转码后视频流的分辨率和比特速率,qn,k和bn,k分别表示原始视频流的分辨率和比特速率,ln是自然对数运算符号,ξ和ξ都是正数;步骤5:然后将步骤3转码后的视频通过下行链路传输到移动终端设备,所消耗的时间为:
其中
是步骤4中转码后视频流的比特速率,
表示转码后视频流的大小,该数值可由媒体流分割器软件直接获得,Bn,k表示由序号为n的小基站分配给第k个用户的无线频谱资源;
表示由宏基站分配给第k个用户的无线频谱资源,
表示可达到的瞬时速率,由下式计算得到
其中Gn,k表示序号为n的小基站能提供给第k个用户的频谱效率,由下式计算得到
其中ρn,k是从序号n的小基站到第k个用户的下行链路的信干噪比,
表示宏基站能提供给第k个用户的频谱效率,由下式计算得到
其中
是从宏基站到第k个用户的下行链路的信干噪比;步骤6:移动终端设备对接收到的视频流进行解码,视频解码所消耗的时间记作
为一常数;步骤7:根据步骤3、步骤5和步骤6的结果,得到步骤2中总时间Tn,k的值,用方程表示为
同时得到时延Dn,k的值,用下式计算Dn,k=Tn,k‑L;步骤8:根据步骤4和步骤7的结果,得到MDP的回报函数r如下
其中
是视频流质量的价格,单位是$,Zn,k是步骤4中视频流的质量函数,υn,k是时延的价格,单位是$,Dn,k是步骤7中时延函数;步骤9:采用双资格迹的Actor‑Critic算法来解决上述MDP问题,首先进行参数初始化,初始化Actor部分的资格迹衰减速率λθ∈[0,1)和Critic部分的资格迹衰减速率λω∈[0,1),初始化Actor部分的策略参数θ和Critic部分的状态值函数参数ω;初始化Actor部分和Critic部分的资格迹向量为零向量,初始化Actor部分的学习率αa,t>0和Critic部分的学习率αc,t>0;设置一个迭代次数的最大值,开始步骤10进行迭代;步骤10:在每一次迭代中,根据动作的概率分布函数π(a|s,θ)选择得到一个动作a,
其中μ(s,θμ)是正太分布的均值,σ(s,θσ)是正太分布的均方差,
θμ和θσ是估计器的参数,θ=[θμ,θσ]T,其中s表示当前状态,θ是当前策略,在当前状态下执行该动作,就可以得到这个动作的奖励值,状态从当前状态转换到下一个状态,并得到下一状态的即时奖励值rt+1;步骤11:更新状态特征向量φ(s),用一个线性估计器来学习状态值函数Vπ(s),估计方法为Vπ(s)≈V(s,ω)=ωTφ(s),其中ω是Critic部分的状态值函数的参数,ωT是ω的转置,为了加速学习过程,在Actor部分和Critic部分都采用资格迹进行多步更新;步骤12:更新时序差分函数δ,更新方法为δ=rt+1+γωV(st+1,ω)‑V(st,ω),其中rt+1+γωV(st+1,ω)是下一状态的总奖励值,γω是衰减因子数值在0到1之间,V(st,ω)是当前状态下的奖励值;步骤13:更新Critic部分的资格迹向量z(ω,t),更新方法为:
其中
是参数ω的梯度,λω∈[0,1)是衰减参数,z(ω,t‑1)是在第t‑1个时隙的Critic部分的资格迹向量;步骤14:更新状态值函数的参数ω(t),更新方法为ω(t+1)=ω(t)+αc,tδz(ω,t),其中αc,t是Critic部分的学习率,满足
步骤15:更新Actor部分的资格迹向量z(θ,t),更新方法为:
其中
是参数θ的梯度,γθλθ是衰减参数,z(θ,t‑1)是在第t‑1个时隙的Actor部分的资格迹向量;步骤16:更新下一个时隙的策略参数θt+1,更新方法为θ(t+1)=θ(t)+αa,tδz(θ,t),其中αa,t是Actor部分的学习率,是一个正数,而且满足
步骤17:更新步骤10中正太分布的均值μ(s,θμ),更新方法为
更新步骤15中正太分布的均方差σ(s,θσ),这个值是正数,更新方法为
判断迭代是否收敛,或者达到迭代次数的上限,如果没有达到迭代次数的上限而且迭代没有收敛,则返回步骤10继续迭代,如果达到迭代次数的上限或迭代已经收敛,则结束迭代。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山西大学,未经山西大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910343561.4/,转载请声明来源钻瓜专利网。