[发明专利]端到端即文本到视频的视频合成方法、系统介质及应用在审

申请号：	202110406372.4	申请日：	2021-04-15
公开（公告）号：	CN114338959A	公开（公告）日：	2022-04-12
发明（设计）人：	徐涛;杨洲;石青松;李梓甜	申请（专利权）人：	西安汉易汉网络科技股份有限公司
主分类号：	H04N5/222	分类号：	H04N5/222;H04N5/262;G10L21/10;G10L21/18;G10L13/04;G10L13/047;G06T13/20;G06T13/40;G06T17/00;G06K9/00;G06N3/04;G06N5/04;H04N21/81
代理公司：	北京汇彩知识产权代理有限公司 11563	代理人：	董丽萍
地址：	710000 陕西省西安市碑***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	端到端即文本视频合成方法系统介质应用
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种端到端即文本到视频的视频合成方法，其特征在于，所述端到端即文本到视频的视频合成方法包括：

构建基于espnet2框架的语音合成模型，基于专业级人声数据库对构建的语音合成模型进行训练，并利用训练好的语音合成模型进行语音合成；

采用3DMM方法，在BFM数据库给定的人脸顶点坐标上，运用图形学技术进行渲染，生成人脸图像；

通过face_alignment模型对3D人脸识别进行人脸模型的数据采集；利用LSTM根据唇部动作得到人脸特征后，将唇部动作和语音文字结合，进行唇形预测；

利用GAN网络进行视频合成。

2.如权利要求1所述的端到端即文本到视频的视频合成方法，其特征在于，所述利用GAN网络进行视频合成包括：利用GAN网络生成模型和判别模型进行互相博弈学习，对每次对生成的图像进行自动判别，产生视频合成的最优结果；

所述端到端即文本到视频的视频合成方法具体包括：

采用3DMM方法，从视频Tv中提取连续的仅下半部分人脸帧组成的窗口V和一个大小为Ta×D的语音段S，其中Tv和Ta分别是视频和音频的时间步长，输入到口型同步专家，通过随机抽取一个音频窗口Ta×D的样本，对音频和视频之间的同步进行辨别，包含一个面状编码器和一个音频编码器，两者都由二维卷积组成，计算编码器生成的嵌入物之间的L2距离，并用最大边际损失来训练模型，以最小化或最大化同步或不同步对之间的距离，达到对每个样本产生一个介于[0,1]之间的单一值，表示输入的音视频对同步的概率；

GAN生成器网络主要有三个模块，(i)身份编码器，(ii)语音编码器，和(iii)人脸解码器，身份编码器是一个残差卷积层的堆栈，对随机参考帧R进行编码，通过face_alignment模型对3D人脸识别进行人脸模型的数据采集，并沿信道轴线与一个位置-优先级P进行连接；语音编码器也是一个二维卷积的堆栈，对输入的语音段S进行编码，将其与人脸表示并联；解码器也是一个卷积层的堆栈，还有用于上采样的转置卷积，生成器被训练成最小化生成帧Lg和地面真实帧LG之间的L1重建损失；

生成器就是一个2D-CNN编解码器网络，独立生成每一帧；

惩罚不准确的唇语生成，在训练过程中，由于训练的口型同步专家一次处理Tv＝5个连续帧，也需要生成器G来生成所有Tv＝5个帧；对参考帧的随机连续窗口进行采样；在输入参考帧的同时，将时间步长沿批次维度堆叠，得到(N-Tv,H,W,3)的输入形状，其中N、H、W分别为批次大小、高度和宽度；在将生成的帧送入专家鉴别器的同时，将时间步长沿信道维度进行串联；结果输入到专家鉴别器中，得到的输入形状为(N-Tv,H,W,3)；识别器的输入形状为(N,H/2,W,3-Tv)，其中只有生成的人脸的下半部分被用于识别；同时对生成器进行训练，使专家判别器的专家同步损失Esyncf最小化；

其中是根据公式(1)计算。请注意，在生成器的训练过程中，专家判别器的权重保持冻结；当损失达到最小时训练结束，输入任意音频数据到模型所得到的数值，就是生成连续真实的人脸图像。

3.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

构建基于espnet2框架的语音合成模型，基于专业级人声数据库对构建的语音合成模型进行训练，并利用训练好的语音合成模型进行语音合成；

采用3DMM方法，在BFM数据库给定的人脸顶点坐标上，运用图形学技术进行渲染，生成人脸图像；

通过face_alignment模型对3D人脸识别进行人脸模型的数据采集；利用LSTM根据唇部动作得到人脸特征后，将唇部动作和语音文字结合，进行唇形预测；

利用GAN网络进行视频合成。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西安汉易汉网络科技股份有限公司，未经西安汉易汉网络科技股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110406372.4/1.html，转载请声明来源钻瓜专利网。