[发明专利]基于深度神经网络的视频压缩方法有效
申请号: | 201710758241.6 | 申请日: | 2017-08-29 |
公开(公告)号: | CN107396124B | 公开(公告)日: | 2019-09-20 |
发明(设计)人: | 马展;陈彤;刘浩杰 | 申请(专利权)人: | 南京大学 |
主分类号: | H04N19/42 | 分类号: | H04N19/42;H04N19/503;H04N19/124;H04N19/91;G06N3/04;G06N3/08 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 李媛媛 |
地址: | 210046 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 神经网络 视频压缩 方法 | ||
本发明公开了一种基于深度神经网络的视频压缩方法,步骤如下:收集并整理视频图像数据集,构建神经网络训练集、测试集和交叉验证集;建立多层的深度神经网络;对于帧间预测,利用运动估计算法寻找最佳匹配块,并计算残差和帧间预测的均方差;预测完成后将残差作为新的训练数据训练残差编码网络,残差网络模型包括帧内残差和帧间残差;预测和残差神经网络的输出数据经过量化和无损熵编码一起作为固定长度码流的压缩数据;解码端通过与编码端对称的神经网络将压缩数据还原,并重建恢复出压缩后图像。本发明的视频压缩方法,与传统H.264视频编码方法在大量测试视频序列上的同等比较中,可以在相同质量上平均节省26%左右的码率。
技术领域
本发明涉及视频编码领域,特别涉及一种基于深度神经网络的视频压缩方法。
背景技术
近年来,人工神经网络发展到了深度学习(deep learning)阶段。深度学习试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法,其强大表达能力使得其在各个机器学习的任务上取到了最好的效果,在视频和图像处理上的表现在目前也超过了其它方法。
深度学习使用了分层抽象的思想,高层的概念通过低层的概念学习得到。这一分层结构通常使用贪婪逐层训练算法构建而成,并从中选取有助于机器学习的有效特征,很多深度学习算法都是以无监督学习的形式出现的,因此这些算法能被应用于其他算法无法企及的无标签数据,这一类数据比有标签的数据更为丰富,也更容易获得,这一点成为深度学习的重要优势。
视频压缩在网络传输过程中的本地存储中是一个很重要的处理方法。对于那些每一帧为YUV420格式的原始视频数据,没有任何的有线网络能满足实时传输这样的视频内容。因此视频编码的标准化由20世纪80年代开始,到如今技术较为成熟的H.264和HEVC技术,都能在同等质量下减少更多的码率,提高传输的效率。
而由于目前深度学习在图像和视频处理上的优秀表现,结合深度学习中Autoencoder的基本思路做图像和视频压缩,用深度学习的方法来提供一个新的视频编码和解码的方法,对于以后的视频数据压缩领域发展是一个很好的开始工作,也便于未来在视频压缩方向上,神经网络的新方案在整个系统的完善过程中有着比传统方法更好的表现和前景。
发明内容
为此,本发明的目的是结合深度学习中神经网络的方法,提出一种基于深度神经网络的视频压缩方法。
本发明采用的技术方案为:
基于深度神经网络的视频压缩方法,包括如下步骤:
S1,收集和整理规范的高清视频图像数据集,构建神经网络训练集、测试集和交叉验证集;
S2,建立多层的预测神经网络和残差神经网络:将所述神经网络训练集中的图像分为无交叠的M×N块,用于训练视频编码的预测模型,预测模型包括帧内预测模式和帧间预测模式;
S3,对于帧间预测模式,利用运动估计算法,在视频的前一帧的对应区域内寻找最佳匹配块,并计算残差和帧间预测的均方差;
S4,根据所述均方差以及设定的阈值来选择预测模型的模式为帧内预测模式或帧间预测模式;
S5,预测模式选择完成后,将残差作为新数据训练残差编码网络,保存训练模型,训练模型包括帧内残差模式和帧间残差模式;
S6,最终预测神经网络和残差神经网络的输出数据经过量化和无损熵编码一起作为固定长度码流的压缩数据;
S7,解码端通过与编码端对称的神经网络将步骤S6中的压缩数据还原成M×N块,并重建恢复出压缩后的图像。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710758241.6/2.html,转载请声明来源钻瓜专利网。