[发明专利]视频生成方法及设备在审
申请号: | 202111204221.7 | 申请日: | 2021-10-15 |
公开(公告)号: | CN113935418A | 公开(公告)日: | 2022-01-14 |
发明(设计)人: | 刘玮;何茜 | 申请(专利权)人: | 北京字节跳动网络技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/583;G10L21/10;G06V10/774 |
代理公司: | 上海光栅知识产权代理有限公司 31340 | 代理人: | 关浩;马雯雯 |
地址: | 100041 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频 生成 方法 设备 | ||
本公开实施例提供一种视频生成方法及设备,该方法包括:获取目标音频;根据目标音频的特征信息和图像生成模型,生成图像序列,图像生成模型用于根据随机输入的向量生成对应的图像;对目标音频和图像序列进行结合,生成目标音频对应的目标视频。从而,生成适合音频的、表现形式更为丰富且无版权风险的视频,并提高了音频转换为视频的效率。
技术领域
本公开实施例涉及计算机技术领域,尤其涉及一种视频生成方法及设备。
背景技术
随着网络技术的发展,融合了图像、文字、声音等丰富元素的视频,逐渐成为互联网的主流表达方式。
除视频之外,音频也是互联网的表达方式。例如,用户可以在社交平台上传自己录制的歌曲,或者,在社交平台分享自己最近听的歌曲,来表达自己的听歌喜好、最近动态等。然而,相较于视频,音频的表达形式单一,而且用户在视频网站上传音频时常遇见没有适合音频的视频素材的问题。
因此,如何将音频转换为内容更为丰富的视频是目前需要解决的问题。
发明内容
本公开实施例提供一种视频生成方法及设备,以实现将音频转换为内容更为丰富的视频。
第一方面,本公开实施例提供一种视频生成方法,包括:
获取目标音频;
根据所述目标音频的特征信息和图像生成模型,生成图像序列,所述图像生成模型用于根据随机输入的向量生成对应的图像;
对所述目标音频和所述图像序列进行结合,生成所述目标音频对应的目标视频。
第二方面,本公开实施例提供一种模型确定方法,包括:
获取训练数据,所述训练数据包括多个图像;
基于所述训练数据,多次训练图像生成模型,所述图像生成模型用于根据随机输入的向量生成对应的图像;
所述图像生成模型的一次训练过程包括:
随机确定输入向量,并在所述多个图像中随机确定标签数据;
将所述输入向量输入所述图像生成模型,得到输出图像;
根据所述输出图像与所述标签数据的差异,调整所述图像生成模型。
第三方面,本公开实施例提供一种视频生成设备,包括:
获取单元,用于获取目标音频;
图像生成单元,用于根据所述目标音频的特征信息和图像生成模型,生成图像序列,所述图像生成模型用于根据随机输入的向量生成对应的图像;
视频生成单元,用于对所述目标音频和所述图像序列进行结合,生成所述目标音频对应的目标视频。
第四方面,本公开实施例提供一种模型确定设备,包括:
获取单元,用于获取训练数据,所述训练数据包括多个图像;
训练单元,用于基于所述训练数据,多次训练图像生成模型,所述图像生成模型用于根据随机输入的向量生成对应的图像;
在所述图像生成模型的一次训练过程中,所述训练单元还用于:
随机确定输入向量,并在所述多个图像中随机确定标签数据;
将所述输入向量输入所述图像生成模型,得到输出图像;
根据所述输出图像与所述标签数据的差异,调整所述图像生成模型。
第五方面,本公开实施例提供一种电子设备,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字节跳动网络技术有限公司,未经北京字节跳动网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111204221.7/2.html,转载请声明来源钻瓜专利网。