[发明专利]一种提高直播视频系统用户体验质量的方法有效

申请号：	201910343561.4	申请日：	2019-04-26
公开（公告）号：	CN110049315B	公开（公告）日：	2020-04-24
发明（设计）人：	张志才;付芳	申请（专利权）人：	山西大学
主分类号：	H04N17/00	分类号：	H04N17/00;H04N21/647
代理公司：	太原申立德知识产权代理事务所(特殊普通合伙) 14115	代理人：	郭海燕
地址：	030000***	国省代码：	山西;14
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种提高直播视频系统用户体验质量的方法，本发明旨在提高直播视频系统中用户的体验质量，在保证观看视频的质量的同时降低时间延迟。与现有文献不同，本发明将可获得的计算资源和无线频谱资源都建模为随机过程，更加逼近真实的无线通信环境。将动态系统建模为马尔科夫判决过程，由于其中的动作空间和状态空间都是连续多维的，传统的强化学习算法如深度Q学习网络和策略梯度在处理这类问题时效率较低难度较大。对此，本发明联合视频流转码策略、用户调度策略和资源分配方法，提出在线Actor‑Critic强化学习算法，在Actor部分和Critic部分都引入了资格迹，加速了学习过程。理论仿真证明其性能明显好于深度Q学习网络，收敛速度也快于策略梯度算法。
搜索关键词：	一种提高直播视频系统用户体验质量方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种提高直播视频系统用户体验质量的方法，其特征在于：包括有步骤1：将动态系统建模为马尔科夫决策过程，简称为MDP，包括S、A、P、r四个参数，其中的状态空间S包括三部分：1)移动边缘计算服务器可获得的计算资源，2)可获得的无线频谱资源，3)无线信道下行链路的信干噪比；其中的动作空间A包括四部分：1)用户调度策略，2)转码策略，3)计算资源分配策略，4)无线频谱资源分配策略；P为状态转移概率矩阵；r是回报函数，由以下步骤获得；步骤2：将直播视频流划分成若干小段，进行播放和处理，每一段的播放时间长度是L，当播放一小段视频的同时处理下一小段视频流，处理所需的时间记作T_n,k，若保证连续播放需满足T_n,k≤L，否则产生时延D_n,k；步骤3：首先移动边缘计算服务器对视频流进行转码处理，从原始的高质量视频流转到较低质量的视频流，所消耗的时间如下：其中参数c_n,k＝1表示用户由小基站提供服务，c_n,k＝0表示用户由宏基站提供服务，表示原始视频流，表示用户收到的由移动边缘计算服务器转码后的视频流，表示将视频流从版本转码到版本所需的计算资源，f_n,k表示由序号为n的小基站的移动边缘计算服务器分配给第k个用户的计算资源；表示由宏基站的移动边缘计算服务器分配给第k个用户的计算资源；步骤4：步骤3中对视频流转码要用到视频流的质量函数Z_n,k，由下式计算得到其中参数和表示转码后视频流的分辨率和比特速率，q_n,k和b_n,k分别表示原始视频流的分辨率和比特速率，ln是自然对数运算符号，ξ和ξ都是正数；步骤5：然后将步骤3转码后的视频通过下行链路传输到移动终端设备，所消耗的时间为：其中是步骤4中转码后视频流的比特速率，表示转码后视频流的大小，该数值可由媒体流分割器软件直接获得，B_n,k表示由序号为n的小基站分配给第k个用户的无线频谱资源；表示由宏基站分配给第k个用户的无线频谱资源，表示可达到的瞬时速率，由下式计算得到其中G_n,k表示序号为n的小基站能提供给第k个用户的频谱效率，由下式计算得到其中ρ_n,k是从序号n的小基站到第k个用户的下行链路的信干噪比，表示宏基站能提供给第k个用户的频谱效率，由下式计算得到其中是从宏基站到第k个用户的下行链路的信干噪比；步骤6：移动终端设备对接收到的视频流进行解码，视频解码所消耗的时间记作为一常数；步骤7：根据步骤3、步骤5和步骤6的结果，得到步骤2中总时间T_n,k的值，用方程表示为同时得到时延D_n,k的值，用下式计算D_n,k＝T_n,k‑L；步骤8：根据步骤4和步骤7的结果，得到MDP的回报函数r如下其中是视频流质量的价格，单位是$，Z_n,k是步骤4中视频流的质量函数，υ_n,k是时延的价格，单位是$，D_n,k是步骤7中时延函数；步骤9：采用双资格迹的Actor‑Critic算法来解决上述MDP问题，首先进行参数初始化，初始化Actor部分的资格迹衰减速率λ_θ∈[0,1)和Critic部分的资格迹衰减速率λ_ω∈[0,1)，初始化Actor部分的策略参数θ和Critic部分的状态值函数参数ω；初始化Actor部分和Critic部分的资格迹向量为零向量，初始化Actor部分的学习率α_a,t＞0和Critic部分的学习率α_c,t＞0；设置一个迭代次数的最大值，开始步骤10进行迭代；步骤10：在每一次迭代中，根据动作的概率分布函数π(a|s,θ)选择得到一个动作a，其中μ(s,θ_μ)是正太分布的均值，σ(s,θ_σ)是正太分布的均方差，θ_μ和θ_σ是估计器的参数，θ＝[θ_μ,θ_σ]^T，其中s表示当前状态，θ是当前策略，在当前状态下执行该动作，就可以得到这个动作的奖励值，状态从当前状态转换到下一个状态，并得到下一状态的即时奖励值r_t+1；步骤11：更新状态特征向量φ(s)，用一个线性估计器来学习状态值函数V^π(s)，估计方法为V^π(s)≈V(s,ω)＝ω^Tφ(s)，其中ω是Critic部分的状态值函数的参数，ω^T是ω的转置，为了加速学习过程，在Actor部分和Critic部分都采用资格迹进行多步更新；步骤12：更新时序差分函数δ，更新方法为δ＝r_t+1+γ_ωV(s_t+1,ω)‑V(s_t,ω)，其中r_t+1+γ_ωV(s_t+1,ω)是下一状态的总奖励值，γ_ω是衰减因子数值在0到1之间，V(s_t,ω)是当前状态下的奖励值；步骤13：更新Critic部分的资格迹向量z(ω,t)，更新方法为：其中是参数ω的梯度，λ_ω∈[0,1)是衰减参数，z(ω,t‑1)是在第t‑1个时隙的Critic部分的资格迹向量；步骤14：更新状态值函数的参数ω(t)，更新方法为ω(t+1)＝ω(t)+α_c,tδz(ω,t)，其中α_c,t是Critic部分的学习率，满足步骤15：更新Actor部分的资格迹向量z(θ,t)，更新方法为：其中是参数θ的梯度，γ_θλ_θ是衰减参数，z(θ,t‑1)是在第t‑1个时隙的Actor部分的资格迹向量；步骤16：更新下一个时隙的策略参数θ_t+1，更新方法为θ(t+1)＝θ(t)+α_a,tδz(θ,t)，其中α_a,t是Actor部分的学习率，是一个正数，而且满足步骤17：更新步骤10中正太分布的均值μ(s,θ_μ)，更新方法为更新步骤15中正太分布的均方差σ(s,θ_σ)，这个值是正数，更新方法为判断迭代是否收敛，或者达到迭代次数的上限，如果没有达到迭代次数的上限而且迭代没有收敛，则返回步骤10继续迭代，如果达到迭代次数的上限或迭代已经收敛，则结束迭代。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于山西大学，未经山西大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910343561.4/，转载请声明来源钻瓜专利网。

上一篇：利用棋盘格测试表检测模组TV畸变的方法及装置
下一篇：设定数量终端的检测方法、装置、便携式终端及存储介质

同类专利

专利分类

H 电学

H04 电通信技术
H04N 图像通信，如电视
H04N17-00 电视系统或其部件的故障诊断、测试或测量
H04N17-02 .对彩色电视信号的
H04N17-04 .对接收机的
H04N17-06 .对记录装置的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种提高直播视频系统用户体验质量的方法有效

专利文献下载