[发明专利]一种时序视频生成方法、装置、计算设备及存储介质有效
申请号: | 202110169891.3 | 申请日: | 2021-02-08 |
公开(公告)号: | CN112995433B | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 孙腾 | 申请(专利权)人: | 北京影谱科技股份有限公司 |
主分类号: | H04N5/06 | 分类号: | H04N5/06;H04N5/08;H04N5/765;G06V10/774;G06V10/82;G06N3/0464;G06N3/08 |
代理公司: | 北京万思博知识产权代理有限公司 11694 | 代理人: | 姜楠楠 |
地址: | 100000 北京市朝阳区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 时序 视频 生成 方法 装置 计算 设备 存储 介质 | ||
本申请公开了一种时序视频生成方法、装置、计算设备及存储介质。所述方法包括:提取训练数据集中每个视频片段的每帧图像的语义分割图,计算前后帧之间的光流估计图;利用训练数据集中每个视频片段每帧图像的语义分割图和前后帧之间的光流估计图训练多层级生成器网络,得到训练好的多层级生成器网络;将时序视频的每帧语义图像输入到训练好的多层级生成器网络中,得到时序视频。所述装置包括语义分割图提取模块、训练模块和时序视频生成模块。所述计算设备包括存储器、处理器和存储在存储器内并能由处理器运行的计算机程序,处理器执行计算机程序时实现上述方法。所述存储介质内存储有计算机程序,计算机程序在由处理器执行时实现上述方法。
技术领域
本申请涉及时序视频生成领域,特别是涉及视频特征提取、时序分析、图像生成等技术。
背景技术
神经网络在人工智能(AI)领域快速发展,推动了图像、文本、语音等多领域的信息交叉融合,用户对图像以及视频处理技术的期望越来越高。虚拟现实的应用场景越来越复杂,需要通过计算机对指定条件的数据进行可视化操作和仿真模拟,对抗生成网络技术的出现推动了真实图像级别的虚拟场景渲染生成领域的发展。在此背景下,对抗生成网络技术实现按照条件输入生成指定内容的图像,已经达到肉眼很难辨别真伪的水平,但是对于连续多帧图像的视频序列的生成方案还较少。常用的pix2pix、pix2pixHD图像翻译生成算法只是针对静态图片的翻译进行设计,没有对时间序列维度建模,如果直接用于视频的翻译会导致帧间不连续的问题,所以不能用于视频生成。
发明内容
本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。
根据本申请的一个方面,提供了一种时序视频生成方法,包括:
提取训练数据集中每个视频片段的每帧图像的语义分割图,并计算前后帧之间的光流估计图;
利用所述训练数据集中每个视频片段的每帧图像的语义分割图和前后帧之间的光流估计图训练多层级生成器网络,得到训练好的多层级生成器网络,所述多层级生成器网络G'N+1的结构为:
G'N+1=GN+1下+G'N+GN+1上
其中,GN+1为生成器子网络,所述GN+1下为所述GN+1中的下采样部分,所述GN+1上为所述GN+1中的上采样部分,G1'为生成器网络,N≥1;
与所述多层级生成器网络相配合的多层级判别器网络D'N+1的结构为:
D’N+1=DN+1下+D’N+DN+1上
其中,DN+1为判别器子网络,所述DN+1下为所述DN+1中的下采样部分,所述DN+1上为所述DN+1中的上采样部分,D1'为判别器网络;
所述多层级生成器网络和所述多层级判别器网络的残差卷积层均为3D卷积结构;
将所述时序视频的每帧语义图像输入到训练好的多层级生成器网络中,得到时序视频。
可选地,所述多层级生成器网络的损失函数包括图像分布损失、时序损失、光流损失、特征匹配损失以及内容一致性损失。
可选地,所述的内容一致性损失的获得方法为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京影谱科技股份有限公司,未经北京影谱科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110169891.3/2.html,转载请声明来源钻瓜专利网。