[发明专利]基于深度强化学习的直播视频云转码资源分配与调度方法有效

专利信息
申请号: 201910603809.6 申请日: 2019-07-05
公开(公告)号: CN110351571B 公开(公告)日: 2020-09-25
发明(设计)人: 孙立峰;庞峥元;黄天驰;王智;杨士强 申请(专利权)人: 清华大学
主分类号: H04N21/2187 分类号: H04N21/2187;H04N21/845;H04N21/2343;H04N21/443;G06F9/455;G06N3/04;G06N3/08
代理公司: 北京清亦华知识产权代理事务所(普通合伙) 11201 代理人: 廖元秋
地址: 100084*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提出一种基于深度强化学习的直播视频云转码资源分配与调度方法,属于机器学习领域和多媒体内容处理领域。该方法在训练阶段,通过在模拟环境中对转码过程进行仿真,训练一个能够根据转码任务工作负载变化动态调整云计算资源分配的神经网络,并在分配的云计算资源上调度直播视频内容的转码任务;在执行阶段,利用训练好的神经网络,根据系统状态作出资源分配的实时决策并在云平台上调度转码任务。该发明基于深度强化学习方法,能够根据转码任务负载变化动态调整云计算资源规模,节省资源使用开销;基于对转码任务时间上下限的估算方法,能够及时完成转码任务的调度执行,满足服务质量要求。
搜索关键词: 基于 深度 强化 学习 直播 视频 云转码 资源 分配 调度 方法
【主权项】:
1.一种基于深度强化学习的直播视频云转码资源分配与调度方法,其特征在于,包括以下步骤:1)训练阶段;具体步骤如下:1‑1)云端服务器将用户上传的视频流切分为连续的视频块,根据每个视频块的格式以及系统的转码配置,对每个视频块生成对应的转码任务并放入任务队列;1‑2)将云端服务器每个计算机进程作为一个训练节点,所有训练节点分为两类:第一类是中心节点,共1个;第二类是模拟执行节点,包括除了中心节点以外的所有节点;1‑3)在每个训练节点上设置一个神经网络,各节点上的神经网络具有相同的网络结构;每个神经网络包括一个策略网络和一个评估网络;其中,所述策略网络共四层,第一层包含一个一维卷积神经网络和两个全连接神经网络,第一层的每个网络分别连接第二层的融合网络,第二层的融合网络连接第三层的全连接神经网络,第三层的全连接神经网络连接第四层的概率归一化函数Softmax层;所述评估网络共四层,其中前三层的网络结构与策略网路相同,评估网络第三层的全连接神经网络连接第四层层的全连接神经网络;1‑4)在中心节点上使用全置为0的方式初始化该节点神经网络中策略网络的参数向量θ和评估网络的参数向量θv;1‑5)在每个模拟执行节点上使用随机化的方式初始化该节点神经网络中策略网络的参数向量θ’和评估网络的参数向量θv’;1‑6)初始化计时器t=1;1‑7)重复执行以下步骤直至计时器达到预设的最大时间t=tmax,中心节点得到训练完毕的神经网络;具体步骤如下:1‑7‑1)在每个模拟执行节点上从中心节点同步参数向量:θ’=θ,θv’=θv;1‑7‑2)在每个模拟执行节点上模拟运行n步,并收集每一步对应的一条训练记录;当收集n条训练记录后,模拟执行节点将n条训练记录发送给中心节点,然后进入步骤1‑7‑3);每个模拟执行节点每一步具体流程如下:1‑7‑2‑1)每个模拟执行节点的神经网络接收当前系统状态一维向量表示t时刻过去k个时间段的转码任务工作量,标量dt表示在从t‑1到t的时间段内未能在时限以前完成的转码任务的百分比,nt表示从t‑1到t的时间段内激活的虚拟机实例的数量;当t=1时,设置为全0,dt设置为0,nt设置为系统为转码任务预留的最大虚拟机数量;1‑7‑2‑2)模拟执行节点的神经网络根据系统状态st输出决策动作at;at为整数;若at>0,则表示从t到t+1的时间段内在云计算平台新激活at台虚拟机;若at<0,则表示从t到t+1的时间段内关闭at台虚拟机;若at=0,则表示下一个时间段内的虚拟机数量无变化;1‑7‑2‑3)从t到t+1的时间段内,任务队列中的转码任务按如下方式被调度执行:对每一个转码任务其中,i是视频流编号,j是视频块在视频流中的顺序编号,p是转码的参数配置,按如下方法估计该转码任务的执行时间上下限:执行时间上限其中,是视频流i中第j个视频块在转码配置为p时的转码任务的执行时间上限;表示在视频流i中所有顺序号小于j的视频块在转码配置为p时的转码时间记录组成的集合,P95th(·)表示集合的95分位数,即同一个直播流之前的视频块在相同转码配置下的转码时间记录的95分位数;执行时间下限其中,是视频流i中第j个视频块在转码配置为p时的转码任务的执行时间上限;表示在视频流i中所有顺序号小于j的视频块在转码配置为p时的转码时间记录组成的集合,P5th(·)表示集合的5分位数,即同一个直播流之前的视频块在相同转码配置下的转码时间记录的5分位数;对每一个转码任务确定其调度优先级其中,是转码任务的执行时限;对每一个转码任务确定其放弃时间检查任务队列任务队列中的每个转码任务,若其放弃时间早于当前系统时间,则放弃执行,将其从任务队列任务队列中移出;检查每个正在执行的转码任务,若其执行时限早于当前系统时间,则表示该任务已超时,放弃执行;对每一台处于激活状态但是未执行转码任务的虚拟机,依次从任务队列中取出最小的任务,分配给该虚拟机;1‑7‑2‑4)在t+1时刻,模拟执行节点得到新的系统状态st+1,和该时间段内的系统收益rt;其中,rt定义如下:其中,ct=cv·nt表示该时间段内的计算资源开销;wt表示该时间段内单位时间执行的转码任务量;是服务质量开销;其中∈是折扣系数,η是服务等级协议约定的服务质量阈值;1‑7‑2‑5)模拟执行节点收集一条模拟运行的记录{st,at,rt};1‑7‑3)中心节点根据如下公式更新策略网络的参数向量θ:然后令t=t+1,重新返回步骤1‑7‑1);1‑7‑4)中心节点根据如下公式更新评估网络的参数向量θv然后令t=t+1,重新返回步骤1‑7‑1);2)执行阶段;具体步骤如下:2‑1)在任意t时刻,收集当前系统状态st,输入步骤1)训练完毕的神经网络;2‑2)神经网络根据系统状态st,输出对应的资源分配的决策动作2‑3)根据决策动作,对数量为的虚拟机进行激活或关闭;2‑4)在从t到t+1的下一个时间段内,重复步骤1‑7‑2‑3),将转码任务调度到虚拟机上执行。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910603809.6/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top