[发明专利]自回归视频生成神经网络在审
申请号: | 202080036018.0 | 申请日: | 2020-05-22 |
公开(公告)号: | CN113826146A | 公开(公告)日: | 2021-12-21 |
发明(设计)人: | 奥斯卡·卡尔·塔克斯特伦;雅各布·D·乌斯克雷特;德克·韦森伯恩 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G06T9/00 | 分类号: | G06T9/00;G06N3/04;G06N3/08 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 邓聪惠;周亚荣 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 回归 视频 生成 神经网络 | ||
1.一种用于生成视频的计算机实现的方法,所述方法包括:
生成包括多个帧的初始输出视频,其中所述帧中的每个帧具有多个通道,每个通道是二维图像并且由来自所述初始输出视频的通道索引的集合的相应通道索引来索引,并且其中,对于每个通道,所述通道中的每个像素被分配预定的像素值或填充有空白像素;
识别所述初始输出视频成为根据特定切片次序索引的通道切片的集合的分区,其中每个通道切片是来自通道堆叠的集合的通道堆叠的下采样,并且其中所述集合中的每个通道堆叠对应于相应的通道索引并且是根据时间具有所述相应的通道索引的通道的堆叠;
为所述通道堆叠的集合中的每个通道堆叠初始化完全生成的通道切片的集合;
根据所述特定切片次序重复地执行以下操作:
使用编码器神经网络处理当前输出视频,所述当前输出视频包括所有通道堆叠的完全生成的通道切片的当前集合,以生成编码的调节通道切片,
使用解码器神经网络处理所述编码的调节通道切片以生成下一个完全生成的通道切片,以及
将所述下一个完全生成的通道切片添加到所述通道堆叠的完全生成的通道切片的当前集合中;
对于所述通道索引中的每个通道索引,使用相应的完全生成的通道切片生成相应的完全生成的通道堆叠;以及
使用为所述通道索引生成的所述完全生成的通道堆叠来生成完全生成的输出视频。
2.根据权利要求1所述的方法,其中,所述编码器神经网络包括3D编码器卷积层后面跟随多个编码自注意力层,其中每个编码自注意力层包括:编码器层-归一化层、块自注意力层和一个或多个编码器前馈层。
3.根据权利要求1或权利要求2所述的方法,其中,所述解码器神经网络包括3D解码器卷积层后面跟随多个解码自注意力层,其中每个解码自注意力层包括:解码器层-归一化层、掩膜的块自注意力层和一个或多个解码器前馈层。
4.根据权利要求2所述的方法,其中,对于每个通道堆叠,使用所述编码器神经网络处理所有通道堆叠的完全生成的通道切片的当前集合以生成所述编码的调节通道切片包括:
使用所有通道堆叠的完全生成的通道切片的所述当前集合来生成部分掩膜视频,其中仅来自完全生成的通道切片的所述当前集合的像素在所述部分掩膜视频中可见,
通过将所述部分掩膜视频与所有通道的像素强度的单热编码级联,生成嵌入的部分掩膜视频,
使用所述3D编码器卷积层处理所述嵌入的部分掩膜视频以生成下采样的编码视频,
在所述下采样的编码视频上应用卷积填充以生成填充的下采样编码视频,
将位置嵌入附加到所述填充的下采样的编码视频以生成初始编码器表示,
使用到隐藏大小的线性投影将所述初始编码器表示变换成中间编码器表示,以及
使用所述多个编码自注意力层处理所述中间编码器表示以生成所述编码的调节通道切片。
5.根据权利要求4所述的方法,其中,使用所述解码器神经网络处理所述编码的调节通道切片以生成所述下一个完全生成的通道切片包括:
通过对每个像素的所有通道嵌入求和来嵌入所述编码的调节通道切片以生成嵌入的通道切片,
使用所述3D解码器卷积层在所述嵌入的通道切片上应用掩膜卷积,以生成第一掩膜通道切片,
将位置嵌入添加到所述第一掩膜通道切片以生成初始解码器通道表示,
将所述编码的调节通道切片添加到所述初始解码器通道表示以生成第二掩膜通道切片,
使用所述多个解码自注意力层处理所述第二掩膜通道切片以生成所述下一个完全生成的通道切片。
6.根据权利要求2所述的方法,其中,所述多个编码自注意力层中的每一个被配置成:
接收包括通道堆叠的集合的填充视频作为输入,
将所述填充视频划分成具有相同块大小的视频块的集合,
对于所述视频块的集合中的每个视频块,在所述视频块上应用自注意力机制以生成自注意输出,
附加所述视频块的集合的自注意输出以形成多头自注意输出,以及
使用最终的完全连接神经网络层处理所述多头自注意输出以生成所述块自注意力层的输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080036018.0/1.html,转载请声明来源钻瓜专利网。