[发明专利]一种实现视频错误隐藏的方法、系统、终端及介质在审
申请号: | 202310082534.2 | 申请日: | 2023-01-18 |
公开(公告)号: | CN116156202A | 公开(公告)日: | 2023-05-23 |
发明(设计)人: | 马然;张冰;曹宇;安平 | 申请(专利权)人: | 上海大学 |
主分类号: | H04N19/65 | 分类号: | H04N19/65;H04N19/60;G06T9/00;G06T3/40;G06N3/045;G06N3/0464;G06N3/0475;G06N3/094;G06N3/084 |
代理公司: | 上海恒慧知识产权代理事务所(特殊普通合伙) 31317 | 代理人: | 徐红银 |
地址: | 200444*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实现 视频 错误 隐藏 方法 系统 终端 介质 | ||
1.一种实现视频错误隐藏的方法,其特征在于,包括:
将原始视频经编解码压缩后形成测试集和训练集,所述测试集为有损视频,所述训练集为无损视频;
对所述测试集和所述训练集进行抽帧处理,得到视频帧测试集和视频帧训练集,将掩码块加在所述视频帧训练集上,得到网络训练集;
构建网络模型,用所述网络训练集对所述网络模型进行训练,得到视频错误隐藏模型;
将所述视频帧测试集输入所述视频错误隐藏模型,输出重建帧,完成视频错误隐藏;
其中,所述视频错误隐藏模型以生成对抗网络为基本框架,包括生成器和鉴别器,所述生成器采用Video Swin Transformer网络对输入的所述视频帧测试集进行视频帧多层特征提取,之后将不同层次的特征进行融合用于视频丢失或受损区域的重建,输出重建帧;所述鉴别器基于所述生成器输出的重建帧计算对抗性损失,来约束所述视频错误隐藏模型进行训练以优化模型性能。
2.根据权利要求1所述的实现视频错误隐藏的方法,其特征在于,所述生成器,被设置为:
首先使用Video Swin Transformer网络组成的编码器对输入的所述视频帧测试集的受损视频帧进行多层特征提取并保存特征输出;
然后通过解码器来进行帧重建,并以跳链接的方式将每个解码层的输出与相同尺寸的编码器输出特征相结合作为下一个解码层的输入,从而充分利用不同层次的特征信息来对视频帧的丢失或受损区域进行恢复。
3.根据权利要求2所述的实现视频错误隐藏的方法,其特征在于,所述编码器编码层,包含n个阶段,实现n个层次的特征提取与下采样,并保存每一层的特征输出;n为大于等于2的自然数;
所述解码层由卷积层与上采样模块构成,实现视频帧的像素重建。
4.根据权利要求3所述的实现视频错误隐藏的方法,其特征在于,所述编码层,由四个阶段构成,每个阶段分别包含2、2、6、2个Video Swin Transformer Block,前三个阶段还包含一个Patch Merging结构。
5.根据权利要求3所述的实现视频错误隐藏的方法,其特征在于,所述解码器由四个网络层组成,其中:
前三层由二维卷积和双线性上采样模块构成,这三层的输出与对应尺寸的编码层输出在通道维度上进行拼接作为下一个网络层的输入;
最后一层由三维卷积和三线性上采样模块构成,最终输出与原始视频帧相同尺寸的重建视频帧。
6.根据权利要求1所述的实现视频错误隐藏的方法,其特征在于,使用像素级重建损失和对抗性损失作为损失函数,来约束所述视频错误隐藏模型。
7.根据权利要求1-6任一项所述的实现视频错误隐藏的方法,其特征在于,用所述网络训练集对所述网络模型进行训练,还包括:
对于输入的受损视频帧首先经过一个3D卷积层进行浅层特征的提取,得到输出特征图;
将所述输出特征图经过块分区与线性嵌入,得到的结果作为Video Swin Transformer网络的输入。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310082534.2/1.html,转载请声明来源钻瓜专利网。