[发明专利]基于深度学习的视频压缩方法和装置在审
申请号: | 202211080678.6 | 申请日: | 2022-09-05 |
公开(公告)号: | CN115529457A | 公开(公告)日: | 2022-12-27 |
发明(设计)人: | 王岩 | 申请(专利权)人: | 清华大学 |
主分类号: | H04N19/124 | 分类号: | H04N19/124;H04N19/13;H04N19/182;H04N19/91 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 白冬梅 |
地址: | 100084 北京市海淀区双清路*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 视频压缩 方法 装置 | ||
1.一种基于深度学习的视频压缩方法,其特征在于,包括:
将目标视频拆分为多个IPPP结构的图像组;
利用预存的深度神经网络模型中的第一网络结构编码所述图像组中的I帧,利用深度神经网络模型中的第二网络结构编码所述图像组中的P帧,得到所述图像组的编码数据;
将各个所述图像组的编码数据的组合作为所述目标视频的压缩数据;
其中,所述第二网络结构,以输入图像组中待编码P帧前一帧的编码帧和输入图像组中待编码P帧的时间上下文信息组成的隐式表示为条件编码输入图像组中待编码P帧;
所述输入图像组中待编码P帧的时间上下文信息,为对输入图像组中待编码P帧前一帧的解码帧进行像素特征提取与细化的结果。
2.根据权利要求1所述的基于深度学习的视频压缩方法,其特征在于,所述第一网络结构包括I帧编码器;利用第一网络结构编码所述图像组中的I帧,包括:
利用所述I帧编码器压缩所述I帧,得到所述I帧的紧致表示;
对所述紧致表示进行量化以及熵编码,得到所述I帧的编码帧。
3.根据权利要求1至2任一项所述的基于深度学习的视频压缩方法,其特征在于,所述深度神经网络模型还包括像素特征提取与细化结构;利用第二网络结构编码所述图像组中的P帧之前,还包括:
将所述图像组中待编码P帧前一帧的解码帧输入所述像素特征提取与细化结构,得到所述图像组中待编码P帧的时间上下文信息。
4.根据权利要求3所述的基于深度学习的视频压缩方法,其特征在于,所述第二网络结构包括上下文编码器、量化结构和熵编码器;利用第二网络结构编码所述图像组中的P帧,包括:
将所述图像组中待编码P帧的时间上下文信息、所述图像组中待编码P帧前一帧的编码帧和所述图像组中待编码P帧输入所述上下文编码器,得到所述图像组中待编码P帧的隐特征;
利用所述量化结构量化所述隐特征,得到所述隐特征的量化结果;
将所述隐特征的量化结果以及所述图像组中待编码P帧的时间上下文信息输入所述熵编码器,得到所述图像组中待编码P帧的编码帧。
5.根据权利要求3所述的基于深度学习的视频压缩方法,其特征在于,所述深度神经网络模型还包括第三网络结构和第四网络结构;
将所述图像组中待编码P帧前一帧的解码帧输入所述像素特征提取与细化结构之前,还包括:
确定所述图像组中待编码P帧前一帧是否为所述图像组中的I帧;
若是,利用所述第三网络结构解码所述I帧的编码帧,得到所述I帧的解码帧;
若否,利用所述第四网络结构解码所述图像组中待编码P帧前一帧的编码帧,得到所述图像组中待编码P帧前一帧的解码帧。
6.根据权利要求3所述的基于深度学习的视频压缩方法,其特征在于,所述像素特征提取与细化结构包括特征提取器和上下文细化结构;
所述将所述图像组中待编码P帧前一帧的解码帧输入所述像素特征提取与细化结构,得到所述图像组中待编码P帧的时间上下文信息,具体包括:
利用所述特征提取器,对所述图像组中待编码P帧前一帧的解码帧进行像素特征提取,得到多通道像素特征;
利用上下文细化结构微调所述多通道像素特征,得到所述图像组中待编码P帧的时间上下文信息。
7.根据权利要求1所述的基于深度学习的视频压缩方法,其特征在于,所述深度神经网络模型是基于数据集构建的;所述数据集包括训练集、验证集和测试集;所述训练集、所述验证集和所述测试集均由IPPP结构的图像组组成;
在构建所述深度神经网络模型的过程中,所述第一网络结构以输入图像组中的I帧及其解码帧的差异优化网络参数,所述第二网络结构以输入图像组中的P帧及其解码帧的差异优化网络参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211080678.6/1.html,转载请声明来源钻瓜专利网。