[发明专利]一种基于生成对抗机制的多样化动态延时视频生成方法有效
申请号: | 202010795760.1 | 申请日: | 2020-08-10 |
公开(公告)号: | CN112132915B | 公开(公告)日: | 2022-04-26 |
发明(设计)人: | 刘勇;徐超;张江宁 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06T11/00 | 分类号: | G06T11/00;G06T11/40;G06N3/04 |
代理公司: | 浙江传衡律师事务所 33387 | 代理人: | 叶卫强 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 生成 对抗 机制 多样化 动态 延时 视频 方法 | ||
本发明提供一种基于生成对抗机制的多样化动态延时视频生成方法,先将光流序列编码成一个标准正态分布的运动向量,然后使用单张静态风景图和运动向量作为输入,采用运动和纹理信息分解设计的思想,预测生成动态延时视频。光流编码模块输入光流序列,输出编码后的标准正态分布的运动向量。动态视频生成模块输入单张静态图和光流编码模块编码的运动向量,独立的纹理分支和运动分支负责提取各自的信息,并在最后将纹理和运动信息进行结合生成动态的延时视频。使用L1损失函数作为运动损失函数对运动分支输出的低分辨率光流图进行监督,此外还有视频鉴别器对视频的纹理和运动信息进行进一步的监督,以生成高真实度的动态视频。
技术领域
本发明涉及一种视频生成方法,具体地,涉及一种基于生成对抗机制的多样化动态延时视频生成方法。
背景技术
基于单张图片生成动态视频的技术在实际生产和生活娱乐中都有极大的应用潜力。比如可以基于一张肖像画生成动态的假视频,也可以应用在机器人控制领域,预测控制对象的运动趋势,实现更好的物理交互。随着深度学习的发展以及大规模数据集的出现,生成高真实度的视频已经成为现实,而基于单张静态图到动态视频的生成技术可以使用更少的数据输入而生成同样丰富真实的视频。目前已有的方法一般都是二阶段方法,难以训练优化。另外一种方法首先生成关键点序列,再基于关键点序列生成动态视频,这类方法生成的视频单一,对于无法提取关键点的自然风光图无法适用,也同样没法端到端训练和推理。针对这些问题,亟待一种端到端的基于单张静态图的多样化的动态视频预测生成框架。
发明内容
本发明针对目前的方法不能很好地实现端到端的单张静态图生成多样化动态视频这一问题,提出了一种基于生成对抗机制的多样化动态延时视频生成方法。
本发明提供一种基于生成对抗机制的多样化动态延时视频生成方法,包括光流编码模块和动态视频生成模块;所述光流编码模块包括光流估计网络FE和3D编码器ψ,原始视频序列I0~T通过光流估计网络FE提取光流序列,记为U1~T,光流序列U1~T输入3D编码器ψ编码生成运动向量,同时将运动向量标准化为标准正态分布,记为f;
为了让运动向量对高层和底层特征有很好的自适应性,通过2层全连接层和和激活函数将运动向量映射为自适应运动向量与动态视频生成模块中各个ResBlock输出的少量纹理特征和丰富的动态特征进行对应;
所述动态视频生成模块包括编码器φE,运动分支φM,纹理分支φC,解码器φD;
输入自适应运动向量和单张静态图I0,首先编码器φE提取图片的共享底层特征,之后分别通过运动分支φM和纹理分支φC提取运动信息和纹理信息,具体地,运动分支φM通过AdaIN引导网络学习动态的运动特征,然后将纹理特征和运动特征在通道上进行合并,送入解码器φD输出预测生成的动态延时视频
作为优选地,光流估计网络FE采用了无监督光流估计网络ARFlow,具体地,ARFlow由23层卷积层组成。
作为优选地,3D编码器ψ是3D编码网络,由6层3D卷积层组成。f映射到的每个映射网络由2层全连接层和激活函数组成。
作为优选地,编码器φE是由3层卷积层组成,运动分支φM是由6个ResBlock+AdaIN组合模块组成,纹理分支φC是由9个ResBlock组成,其中ResBlock是残差模块,由2层卷积层组成;解码器φD是由1层反卷积和1层卷积层组成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010795760.1/2.html,转载请声明来源钻瓜专利网。