[发明专利]基于深度学习的视频压缩方法和装置在审
申请号: | 202211080678.6 | 申请日: | 2022-09-05 |
公开(公告)号: | CN115529457A | 公开(公告)日: | 2022-12-27 |
发明(设计)人: | 王岩 | 申请(专利权)人: | 清华大学 |
主分类号: | H04N19/124 | 分类号: | H04N19/124;H04N19/13;H04N19/182;H04N19/91 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 白冬梅 |
地址: | 100084 北京市海淀区双清路*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 视频压缩 方法 装置 | ||
本发明提供基于深度学习的视频压缩方法和装置,将目标视频拆分为多个IPPP结构的图像组;利用预存的深度神经网络模型中的第一网络结构编码图像组中的I帧,第二网络结构编码图像组中的P帧,得到图像组的编码数据;将各个图像组的编码数据的组合作为目标视频的压缩数据;其中,第二网络结构,以输入图像组中待编码P帧前一帧的编码帧和对输入图像组中待编码P帧前一帧的解码帧进行像素特征提取与细化处理得到的时间上下文信息组成的隐式表示为条件编码输入图像组中待编码P帧;本发明构建具有自主学习上下文特征能力的且以上下文特征为编码条件的深度学习网络模型,从而充分挖掘视频中的时空冗余,使视频压缩能够达到更好的率失真性能。
技术领域
本发明涉及图像处理技术领域,尤其涉及基于深度学习的视频压缩方法和装置。
背景技术
视频压缩在网络传输过程中的本地存储中是一个很重要的处理方法。对于那些每一帧为YUV420格式的原始视频数据,没有任何的有线网络能满足实时传输这样的视频内容。因此视频编码技术应运而生。由于深度学习在图像和视频处理上的优秀表现,基于深度学习的视频编码有着比传统方法更好的表现和前景。
目前,基于深度学习的视频压缩技术均利用残差编码框架实现,其通过运动估计获得运动向量信息后,经由相对固定的计算模式得到残差信息;进而将运动信息和残差信息作为编解码的依据实现视频编解码。
但是,残差编码框架不能充分的利用上下文特征,难以更充分的挖掘视频中的时空冗余,视频压缩的率失真性能有待提高。
发明内容
本发明提供一种基于深度学习的视频压缩方法和装置,用以解决现有技术中采用残差编码框架的视频压缩技术不能充分利用上下文特征的缺陷,提出具有自主学习上下文特征能力的且以上下文特征为编码条件的深度学习网络模型,从而充分挖掘视频中的时空冗余,使视频压缩能够达到更好的率失真性能。
本发明提供一种基于深度学习的视频压缩方法,包括:
将目标视频拆分为多个IPPP结构的图像组;
利用预存的深度神经网络模型中的第一网络结构编码所述图像组中的I帧,利用深度神经网络模型中的第二网络结构编码所述图像组中的P帧,得到所述图像组的编码数据;
将各个所述图像组的编码数据的组合作为所述目标视频的压缩数据;
其中,所述第二网络结构,以输入图像组中待编码P帧前一帧的编码帧和输入图像组中待编码P帧的时间上下文信息组成的隐式表示为条件编码输入图像组中待编码P帧;
所述输入图像组中待编码P帧的时间上下文信息,为对输入图像组中待编码P帧前一帧的解码帧进行像素特征提取与细化的结果。
根据本发明提供的基于深度学习的视频压缩方法,所述第一网络结构包括I帧编码器;利用第一网络结构编码所述图像组中的I帧,包括:
利用所述I帧编码器压缩所述I帧,得到所述I帧的紧致表示;
对所述紧致表示进行量化以及熵编码,得到所述I帧的编码帧。
根据本发明提供的基于深度学习的视频压缩方法,所述深度神经网络模型还包括像素特征提取与细化结构;利用第二网络结构编码所述图像组中的P帧之前,还包括:
将所述图像组中待编码P帧前一帧的解码帧输入所述像素特征提取与细化结构,得到所述图像组中待编码P帧的时间上下文信息。
根据本发明提供的基于深度学习的视频压缩方法,所述第二网络结构包括上下文编码器、量化结构和熵编码器;利用第二网络结构编码所述图像组中的P帧,包括:
将所述图像组中待编码P帧的时间上下文信息、所述图像组中待编码P帧前一帧的编码帧和所述图像组中待编码P帧输入所述上下文编码器,得到所述图像组中待编码P帧的隐特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211080678.6/2.html,转载请声明来源钻瓜专利网。