[发明专利]使用结构性保持运动估计的端到端视频压缩方法及系统在审
申请号: | 202210449954.5 | 申请日: | 2022-04-27 |
公开(公告)号: | CN115002482A | 公开(公告)日: | 2022-09-02 |
发明(设计)人: | 叶茂;高寒;李帅 | 申请(专利权)人: | 电子科技大学 |
主分类号: | H04N19/51 | 分类号: | H04N19/51;H04N19/70 |
代理公司: | 成都虹盛汇泉专利代理有限公司 51268 | 代理人: | 王伟 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 结构性 保持 运动 估计 端视 压缩 方法 系统 | ||
本发明公开一种使用结构性保持运动估计的端到端视频压缩方法,应用于视频数据处理领域,针对现有技术难以进行运动估计的问题;本发明利用编码器侧的参考帧,有效地检索丢失的信息,可以提高当前帧的压缩性能。具体的:提取当前帧特征与已解码的前一帧特征之间的主运动场,以及当前帧特征与原始的前一帧特征之间的辅助运动场;然后提出了一个融合模块,将这两个运动场融合,形成最终待传输的能够保持结构性的运动场,以最大限度发挥卷积神经网络的结构性优势;利用传输的运动场和解码的前一帧特征来预测和增强当前的特征。
技术领域
本发明属于视频数据处理领域,特别涉及一种视频压缩技术。
背景技术
视频数据的传输是导致互联网拥堵的重要原因之一。因此,有效的压缩方案一直是降低传输和存储成本的高需求。在过去的几十年里,研究人员先后开发了一些列视频编码标准,包括H.264/AVC、H.265/HEVC和H.266/VVC等。这些方案采用人工设计的模块来减少时空冗余,并实现了良好的压缩性能。
如当下被广泛应用的标准H.265/HEVC,其框架包括如下几个模块:变换、量化、熵编码、帧内预测、帧间预测以及环路滤波。帧内预测的主要功能是去除图像的空间相关性,通过编码后的重构信息块来预测当前像素块以去除空间冗余信息,提高图像的压缩效率。帧间预测的主要功能是去除时间相关性,通过将已编码的图像作为当前帧的参考图像,来获取各个块的运动信息,从而去除时间冗余,提高压缩效率。变换量化的作用是通过对残差数据去除频域相关性,对数据进行有损压缩。变换编码将图像从时域信号变换至频域,将能量集中至低频区域。量化模块可以减小图像编码的动态范围。熵编码模块将编码控制数据、量化变换系数、帧内预测数据、运动数据、滤波器控制数据编码为二进制进行存储和传输。熵编码模块的输出数据即是原始视频压缩后的码流。环路滤波的作用主要是去除编解码过程中所产生的噪声,主要包括去块滤波器(DBF)和样点自适应补偿滤波(SAO)。 DBF的主要作用是去方块效应,而SAO的主要作用是去除振铃效应。
目前,深度神经网络在数据压缩领域具有广泛的应用空间,最近基于深度学习的视频压缩方案的性能突破验证了这一事实。然而现存的大多数方法都忽略了编码端的上一帧的作用,仅仅使用已解码的上一帧作为参考,参考帧的信息失真将导致当前帧的压缩性能下降。
相关现有技术如下:
北京市商汤科技开发有限公司鲁国、欧阳万里、张小云、蔡春磊、徐东和高志勇的发明《视频压缩处理方法及装置、电子设备及存储介质》,公开号为:CN109451308A。
在该方案中,他们将传统视频压缩方案中的各个模块替换成神经网络,以一种端到端的方式进行联合优化,但像素域的运动补偿会难以避免的带来压缩伪影,而特征域的处理才能充分发挥机器学习的优势,因此该方法的性能有限。
北京航空航天大学胡智昊的发明《一种基于深度学习特征空间的视频压缩方法》,公开号为:CN113298894A。
在该方案中,他们首次将可变形卷积应用到视频压缩领域,并在特征域进行一系列的操作,充分利用了特征域所包含的丰富信息,实现了较大的性能突破。但该方案忽略了编码端上一时刻帧的作用,同时使用Non-local模块的后处理操作也极大的增加了模型的复杂度,这将会给编解码速度带来极大的挑战。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210449954.5/2.html,转载请声明来源钻瓜专利网。