[发明专利]视频生成方法和装置、计算机可读存储介质、电子设备在审

申请号：	202110438622.2	申请日：	2021-04-22
公开（公告）号：	CN113132815A	公开（公告）日：	2021-07-16
发明（设计）人：	赵靖	申请（专利权）人：	北京房江湖科技有限公司
主分类号：	H04N21/81	分类号：	H04N21/81;G06T17/00
代理公司：	北京思源智汇知识产权代理有限公司 11657	代理人：	王晓多
地址：	101300 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	视频生成方法装置计算机可读存储介质电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开实施例公开了一种视频生成方法和装置、计算机可读存储介质、电子设备，其中，方法包括：基于目标对象的第一人脸图像，得到第一三维人头模型；其中，所述第一三维人头模型包括多个顶点和顶点之间的连接关系；基于目标语音数据改变所述第一三维人头模型中n个顶点的位置，得到多帧视频图像；其中，n为大于等于0的整数；基于所述多帧视频图像，得到所述目标对象讲述所述目标语音数据的目标视频。本公开实施例基于目标对象的单帧人脸图像和目标语音数据即可得到目标对象讲述目标语音数据的目标视频，输入数据少，处理效率高，且由于加入了三维人头模型的驱动，获得的目标视频动作更真实。

技术领域

本公开涉及图像视频技术领域，尤其是一种视频生成方法和装置、计算机可读存储介质、电子设备。

背景技术

随着计算机技术的发展，为更便利的服务用户，减少用户的阅读时间，现有技术提出将文本转换为语音的语音合成技术，语音合成是通过机械的、电子的方法产生人造语音的技术；例如，TTS技术(又称文语转换技术)隶属于语音合成，它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术；但现有技术仅能提供语音缺少与之结合的视频显示，不能为用户提供更直观的体验。

发明内容

为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种视频生成方法和装置、计算机可读存储介质、电子设备。

根据本公开实施例的一个方面，提供了一种视频生成方法，包括：

基于目标对象的第一人脸图像，得到第一三维人头模型；其中，所述第一三维人头模型包括多个顶点和顶点之间的连接关系；

基于目标语音数据改变所述第一三维人头模型中n个顶点的位置，得到多帧视频图像；其中，n为大于等于0的整数；

基于所述多帧视频图像，得到所述目标对象讲述所述目标语音数据的目标视频。

可选地，所述基于目标对象的第一人脸图像，得到第一三维人头模型，包括：

利用第一重建模型对所述第一人脸图像进行人头模型恢复，得到所述第一三维人头模型；其中，所述第一重建模型经过训练。

可选地，在利用第一重建模型对所述第一人脸图像进行人头模型恢复，得到所述第一三维人头模型之前，还包括：

基于第一样本数据集对所述第一重建模型进行训练；其中，所述第一样本数据集包括多对第一样本数据对，每对所述第一样本数据对包括对应的样本人脸图像和样本三维人头模型。

可选地，所述基于目标语音数据改变所述第一三维人头模型中n个顶点的位置，得到多帧视频图像，包括：

对所述目标语音数据进行切分处理，得到多个语音片段；