[发明专利]一种基于生成对抗机制的多样化动态延时视频生成方法有效
申请号: | 202010795760.1 | 申请日: | 2020-08-10 |
公开(公告)号: | CN112132915B | 公开(公告)日: | 2022-04-26 |
发明(设计)人: | 刘勇;徐超;张江宁 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06T11/00 | 分类号: | G06T11/00;G06T11/40;G06N3/04 |
代理公司: | 浙江传衡律师事务所 33387 | 代理人: | 叶卫强 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 生成 对抗 机制 多样化 动态 延时 视频 方法 | ||
1.一种基于生成对抗机制的多样化动态延时视频生成方法,其特征在于,包括光流编码模块和动态视频生成模块;
所述光流编码模块包括光流估计网络FE和3D编码器ψ,原始视频序列I0~T通过光流估计网络FE提取光流序列,记为U1~T,光流序列U1~T输入3D编码器ψ编码生成运动向量,同时将运动向量标准化为标准正态分布,记为f;
为了让运动向量对高层和底层特征有很好的自适应性,通过2层全连接层和和激活函数将运动向量映射为自适应运动向量与动态视频生成模块中各个ResBlock输出的少量纹理特征和丰富的动态特征进行对应;
所述动态视频生成模块包括编码器φE,运动分支φM,纹理分支φC,解码器φD;
输入自适应运动向量和单张静态图I0,首先编码器φE提取图片的共享底层特征,之后分别通过运动分支φM和纹理分支φC提取运动信息和纹理信息,具体地,运动分支φM通过AdaIN引导网络学习动态的运动特征,然后将纹理特征和运动特征在通道上进行合并,送入解码器φD输出预测生成的动态延时视频
2.根据权利要求1中所述的一种基于生成对抗机制的多样化动态延时视频生成方法,其特征在于,光流估计网络FE采用了无监督光流估计网络ARFlow,具体地,ARFlow由23层卷积层组成。
3.根据权利要求1中所述的一种基于生成对抗机制的多样化动态延时视频生成方法,其特征在于,3D编码器ψ是3D编码网络,由6层3D卷积层组成。
4.根据权利要求1中所述的一种基于生成对抗机制的多样化动态延时视频生成方法,其特征在于,编码器φE是由3层卷积层组成,运动分支φM是由6个ResBlock+AdaIN组合模块组成,纹理分支φC是由9个ResBlock组成,其中ResBlock是残差模块,由2层卷积层组成;解码器φD是由1层反卷积和1层卷积层组成。
5.根据权利要求1中所述的一种基于生成对抗机制的多样化动态延时视频生成方法,其特征在于,采用L1损失函数对生成的视频进行纹理约束,采用L1损失函数对运动分支φM输出的低分辨率光流图进行运动信息约束,同时采用了对抗思想的视频鉴别器以进一步增加生成的视频的真实性。
6.根据权利要求5中所述的一种基于生成对抗机制的多样化动态延时视频生成方法,其特征在于,所述视频鉴别器由6层3D卷积层和激活函数组成;
在训练时需要保证同一场景的训练视频能够截取至少32帧连续的画面,否则丢弃该训练数据。
7.根据权利要求1中所述的一种基于生成对抗机制的多样化动态延时视频生成方法,其特征在于,所述标准正态分布的运动向量f和自适应运动向量定义为长度为512的向量,I0是三通道的128*128分辨率的彩色图像,U1~T是32帧连续的二通道光流图组成的序列,是32帧连续的三通道彩色图组成的序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010795760.1/1.html,转载请声明来源钻瓜专利网。