[发明专利]一种基于自适应学习的实时视频传输方法有效
申请号: | 202210883440.0 | 申请日: | 2022-07-26 |
公开(公告)号: | CN115086667B | 公开(公告)日: | 2022-11-18 |
发明(设计)人: | 王方鑫;张大猷 | 申请(专利权)人: | 香港中文大学(深圳) |
主分类号: | H04N19/164 | 分类号: | H04N19/164;H04L1/00;H04N19/166;H04N19/184;G06N20/00 |
代理公司: | 成都巾帼知识产权代理有限公司 51260 | 代理人: | 邢伟 |
地址: | 518100 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 自适应 学习 实时 视频 传输 方法 | ||
1.一种基于自适应学习的实时视频传输方法,其特征在于:包括以下子步骤:
S1.在开始进行实时视频传输之前,发送端初始化配置参数,包括比特率、UDP-Lite校验范围、FEC纠错数据包配比、最大数据包长度MTU;接收端部署强化学习模型,并初始化最大播放延迟、GOP和fps;
S2.实时视频传输过程中,发送端读取当前配置中的比特率,并使用H.264视频编码器对当前的原始视频进行编码;
S3.发送端读取当前配置中的MTU、UDP-Lite校验比例、FEC纠错数据包的比例,对编码后的视频数据打包,然后发送给接收端;
S4.接收端接收到数据包后,将数据包放入待检测队列,并进行UDP-Lite校验和丢失数据包的恢复;
S5.接收端统计数据包传输过程中的相关参数,并提供给强化学习模型;传输过程中的相关参数包括传输超时的网络数据、重传的网络数据和视频效果数据;
S6.强化学习模型在得到输入数据后,计算强化学习奖惩值,根据奖惩值计算神经网络的梯度,并使用PPO算法对神经网络进行更新;更新后的智能体决策出下一时刻的各类参数,包含视频的比特率、UDP-Lite的校验比例、以及FEC纠错数据包的配比;
S7.接收端将智能体的决策结果反馈给发送端,发送端根据决策结果,修改视频的比特率、UDP-Lite的校验比例、以及FEC纠错数据包的配比,用于后续视频传输过程使用。
2.根据权利要求1所述的一种基于自适应学习的实时视频传输方法,其特征在于:所述步骤S3包括以下子步骤:
S301.发送端根据最大数据包长度MTU,将编码好的视频数据分割成多个UDP-Lite数据包,在每个包负载的起始处插入一个递增的数字序号,表示其次序;
S302.对于每一个UDP-Lite数据包,根据配置的UDP-Lite校验比例,设置UDP-Lite的数据的校验范围,计算校验和并把校验和填入包头;分割得到的UDP-Lite数据包经过校验范围设置,并将校验和填入包头后,按照数字序号形成一组初始数据包;
S303.根据FEC纠错数据包的配比,将一组初始数据包通过Reed Solomon算法进行计算,得出一组FEC数据包,一组FEC数据包中包含多个数据包;
S304.将得到的一组FEC数据包发送给接收端。
3.根据权利要求1所述的一种基于自适应学习的实时视频传输方法,其特征在于:所述步骤S4包括以下子步骤:
S401.对于接收到的一组FEC数据包中的每个数据包,接收端根据UDP-Lite协议,通过数据包头里的校验范围及对应的校验和,判断校验范围内的数据是否有错误;
S402.根据数据包的序号,在一组FEC数据包收到后,若步骤S401判断出校验范围内的数据存在错误,则通过FEC算法进行恢复。
4.根据权利要求1所述的一种基于自适应学习的实时视频传输方法,其特征在于:所述步骤S5包括:
S501.接收端每接收到一个数据包时,都会记录对应的网络数据,所述网络数据包含延迟、数据包是否包含错误,数据包是否包含错误,即数据包是能否通过UDP-Lite校验和的校验;
如果接收的数据包,其到达时间超过了时限,即超过了发送时间与最大播放延迟的和,则丢弃该部分数据;
如果错误的数据包,超过了FEC算法的恢复能力,无法纠正所有的错误,则反馈给发送端,要求重传此段数据;发送端在接收到重传要求后,会重复步骤S3;
S502.接收端进行视频解码,播放解码后的视频,统计当前的视频数据,所述视频数据包括:
通过播放器记录视频的比特率,记为“视频质量”;
播放时的卡顿时间,记为“卡顿值”;
播放当前时刻的比特率与之前时刻的比特率差值,记为视频效果的变化差值;
S503.将网络数据和视频数据提供给强化学习模型。
5.根据权利要求1所述的一种基于自适应学习的实时视频传输方法,其特征在于:所述步骤S6包括:
S601.强化学习模型在得到输入数据后根据下列公式计算强化学习奖惩值:
奖惩值 = 1*视频效果值 – 1*播放卡顿值 - 0.5*视频效果的变化差值;
S602.强化学习模型的输出为动作action,设置3个动作,分别为视频的比特率、UDP-Lite的校验比例,FEC就纠错数据包的配比,其中每个项有6个选项;模型的输入的特征包含网络数据和视频数据,强化学习模型在得到输入后,会输出3个动作;
在强化学习模型的学习过程中,强化学习模型根据奖惩值计算神经网络的梯度,并使用PPO算法对神经网络进行更新;更新后的智能体决策出下一时刻的各类参数,包含视频的比特率、UDP-Lite的校验比例、以及FEC纠错数据包的配比。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于香港中文大学(深圳),未经香港中文大学(深圳)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210883440.0/1.html,转载请声明来源钻瓜专利网。