[发明专利]一种提高直播视频系统用户体验质量的方法有效
申请号: | 201910343561.4 | 申请日: | 2019-04-26 |
公开(公告)号: | CN110049315B | 公开(公告)日: | 2020-04-24 |
发明(设计)人: | 张志才;付芳 | 申请(专利权)人: | 山西大学 |
主分类号: | H04N17/00 | 分类号: | H04N17/00;H04N21/647 |
代理公司: | 太原申立德知识产权代理事务所(特殊普通合伙) 14115 | 代理人: | 郭海燕 |
地址: | 030000*** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 提高 直播 视频 系统 用户 体验 质量 方法 | ||
1.一种提高直播视频系统用户体验质量的方法,其特征在于:包括有
步骤1:将动态系统建模为马尔科夫决策过程,简称为MDP,包括S、A、P、r四个参数,其中的状态空间S包括三部分:1)移动边缘计算服务器可获得的计算资源,2)可获得的无线频谱资源,3)无线信道下行链路的信干噪比;其中的动作空间A包括四部分:1)用户调度策略,2)转码策略,3)计算资源分配策略,4)无线频谱资源分配策略;P为状态转移概率矩阵;r是回报函数,由以下步骤获得;
步骤2:将直播视频流划分成若干小段,进行播放和处理,每一段的播放时间长度是L,当播放一小段视频的同时处理下一小段视频流,处理所需的时间记作Tn,k,若保证连续播放需满足Tn,k≤L,否则产生时延Dn,k;
步骤3:首先移动边缘计算服务器对视频流进行转码处理,从原始的高质量视频流转到较低质量的视频流,所消耗的时间如下:
其中参数cn,k=1表示用户由小基站提供服务,cn,k=0表示用户由宏基站提供服务,表示原始视频流,表示用户收到的由移动边缘计算服务器转码后的视频流,表示将视频流从版本转码到版本所需的计算资源,fn,k表示由序号为n的小基站的移动边缘计算服务器分配给第k个用户的计算资源;表示由宏基站的移动边缘计算服务器分配给第k个用户的计算资源;
步骤4:步骤3中对视频流转码要用到视频流的质量函数Zn,k,由下式计算得到
其中参数和表示转码后视频流的分辨率和比特速率,qn,k和bn,k分别表示原始视频流的分辨率和比特速率,ln是自然对数运算符号,ζ和ξ都是正数;
步骤5:然后将步骤3转码后的视频通过下行链路传输到移动终端设备,所消耗的时间为:
其中是步骤4中转码后视频流的比特速率,表示转码后视频流的大小,可由媒体流分割器软件直接获得,Bn,k表示由序号为n的小基站分配给第k个用户的无线频谱资源;表示由宏基站分配给第k个用户的无线频谱资源,表示可达到的瞬时速率,由下式计算得到其中Gn,k表示序号为n的小基站能提供给第k个用户的频谱效率,由下式计算得到其中ρn,k是从序号n的小基站到第k个用户的下行链路的信干噪比,表示宏基站能提供给第k个用户的频谱效率,由下式计算得到其中是从宏基站到第k个用户的下行链路的信干噪比;
步骤6:移动终端设备对接收到的视频流进行解码,视频解码所消耗的时间记作为一常数;
步骤7:根据步骤3、步骤5和步骤6的结果,得到步骤2中总时间Tn,k的值,用方程表示为同时得到时延Dn,k的值,用下式计算Dn,k=Tn,k-L;
步骤8:根据步骤4和步骤7的结果,得到MDP的回报函数r如下
其中是视频流质量的价格,单位是$,Zn,k是步骤4中视频流的质量函数,υn,k是时延的价格,单位是$,Dn,k是步骤7中时延函数;
步骤9:采用双资格迹的Actor-Critic算法来解决上述MDP问题,首先进行参数初始化,初始化Actor部分的资格迹衰减速率λθ∈[0,1)和Critic部分的资格迹衰减速率λω∈[0,1),初始化Actor部分的策略参数θ和Critic部分的状态值函数参数ω;初始化Actor部分和Critic部分的资格迹向量为零向量,初始化Actor部分的学习率αa,t>0和Critic部分的学习率αc,t>0;设置一个迭代次数的最大值,开始步骤10进行迭代;
步骤10:在每一次迭代中,根据动作的概率分布函数π(a|s,θ)选择得到一个动作a,其中μ(s,θμ)是正太分布的均值,σ(s,θσ)是正太分布的均方差,θμ和θσ是估计器的参数,θ=[θμ,θσ]T,其中s表示当前状态,θ是当前策略,在当前状态下执行该动作,就可以得到这个动作的奖励值,状态从当前状态转换到下一个状态,并得到下一状态的即时奖励值rt+1;
步骤11:更新状态特征向量φ(s),用一个线性估计器来学习状态值函数Vπ(s),估计方法为Vπ(s)≈V(s,ω)=ωTφ(s),其中ω是Critic部分的状态值函数的参数,ωT是ω的转置,为了加速学习过程,在Actor部分和Critic部分都采用资格迹进行多步更新;
步骤12:更新时序差分函数δ,更新方法为δ=rt+1+γωV(st+1,ω)-V(st,ω),其中,γω是衰减因子数值在0到1之间,V(st,ω)是当前状态下的奖励值,V(st+1,ω)是下一个状态st+1下的奖励值;
步骤13:更新Critic部分的资格迹向量z(ω,t),更新方法为:
其中是参数ω的梯度,λω∈[0,1)是衰减参数,z(ω,t-1)是在第t-1个时隙的Critic部分的资格迹向量;
步骤14:更新状态值函数的参数ω(t),更新方法为ω(t+1)=ω(t)+αc,tδz(ω,t),其中αc,t是Critic部分的学习率,满足
步骤15:更新Actor部分的资格迹向量z(θ,t),更新方法为:
其中是参数θ的梯度,γθλθ是衰减参数,z(θ,t-1)是在第t-1个时隙的Actor部分的资格迹向量;
步骤16:更新下一个时隙的策略参数θt+1,更新方法为θ(t+1)=θ(t)+αa,tδz(θ,t),
其中αa,t是Actor部分的学习率,是一个正数,而且满足
步骤17:更新步骤10中正太分布的均值μ(s,θμ),更新方法为其中是步骤10中估计器的参数θμ的转置;更新步骤15中正太分布的均方差σ(s,θσ),这个值是正数,更新方法为判断迭代是否收敛,或者达到迭代次数的上限,如果没有达到迭代次数的上限而且迭代没有收敛,则返回步骤10继续迭代,如果达到迭代次数的上限或迭代已经收敛,则结束迭代。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山西大学,未经山西大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910343561.4/1.html,转载请声明来源钻瓜专利网。