[发明专利]一种基于唇语同步和神态适配效果增强的视频合成方法在审
申请号: | 202010545322.X | 申请日: | 2020-06-15 |
公开(公告)号: | CN111783566A | 公开(公告)日: | 2020-10-16 |
发明(设计)人: | 王太浩;张传锋;朱锦雷 | 申请(专利权)人: | 神思电子技术股份有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04;G06N3/08;G06T5/50;G10L25/24;G10L25/57 |
代理公司: | 济南泉城专利商标事务所 37218 | 代理人: | 赵玉凤 |
地址: | 250000 山东省济南市*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 同步 神态 效果 增强 视频 合成 方法 | ||
1.一种基于唇语同步和神态适配效果增强的视频合成方法,其特征在于:包括以下步骤:
S01)、模型训练阶段,首先将数据集拆分为训练集和测试集,获取使用传统方式预训练的视频合成预训练模型;
S02)、使用视频合成预训练模型对非线性变换网络的参数进行初始化,在视频合成预训练模型的基础上,使用新的训练数据和损失函数进行二次训练;
S03)、输入训练样本中动态的音频流和人脸图像,将人脸图像作为基本元素,在每一帧的循环合成过程中输入同一幅基准图像,使用工具包提取音频的MFCC特征,将音频流转化为与帧对应的特征片段序列;
S04)、使用音频编码卷积网络对MFCC特征片段进行编码,通过池化结构对特征进行压缩,通过填充和截断处理使特征各个维度具有等量的大小;
S05)、使用图片编码卷积网络对人脸特征进行编码,通过网络对特征的过滤,实现关键特征点的提取,将边缘和角度特征转化为二阶特征张量,然后将该二阶特征张量存储到中间变量中,作为每一个时间步长上人像身份特征的一个引导合成张量;
S06)、将前一时间步的中间状态、步骤S04得到的音频特征、步骤S05得到的人像特征一起输入到非线性变换网络中,使用Attention网络对各个时间步进行加权,然后经过3维的卷积池化层,将三种特征融合为三阶的整体特征张量;
S07)、将步骤S06得到的三阶整体特征张量复制为两部分,一部分作为新的中间状态传递给下一时间步,另一部分传递给解码网络,解码网络使用反卷积结构对三阶整体特征张量进行解码,逐帧得到合成的人像图片,将解码后的人像图片序列按照与音频对应的帧数或者时间比率连接起来,并融合音频文件,形成最终合成的虚拟说话视频;
S08)、建立分别实现五种监督功能的五个判别器,五个判别器与解码器组成对抗训练网络,同时设计好五个判别器对应的损失函数,将五种损失按照一定的权重加和得到总损失,以总损失最小化为原则,使用反向传播算法对音频编码网络、图片编码网络、非线性变换网络、解码网络、视频合成预训练模型进行对抗训练;五个判别其分别是人脸真实性判别器、视频真实性判别器、唇语同步判别器、眼神适配判别器和姿态适配判别器,五个判别器分别对最终合成虚拟说话视频的人脸真实性、视频真实性、唇语同步性、眼神适配性、姿态适配性进行监督。
2.根据权利要求1所述的基于唇语同步和神态适配效果增强的视频合成方法,其特征在于:人脸真实性判别器是一个图片分类网络,将此网络合成的图片与目标图片进行比对分类,得到分类损失,对应的损失函数为:
其中,EI~P、表示对服从P分布的随机变量I、计算均值,D1表示人脸真实性判别器,作用于图片,I表示真实人脸图片,表示解码器合成的人脸图片,通过D1得到判别向量特征,经过归一化和对数化就得到平均损失,将真实人脸图片平均损失与合成人脸图片平均损失相减得到损失函数。
3.根据权利要求1所述的基于唇语同步和神态适配效果增强的视频合成方法,其特征在于:视频真实性判别器用来判别视频各帧是否连续,视频真实性的标签是相邻两帧图片之间的像素差,对应的损失函数为:
其中,EI~P、表示对服从P分布的随机变量(It-It+1)、计算均值,D2表示视频真实性判别器,作用于相邻时间步图片的差分结果,(It-It+1)表示真实人脸图片相邻时间步的差分结果,表示合成人脸图片相邻时间步的差分结果,通过D2得到判别向量特征,经过归一化和对数化就得到平均损失,将真实视频平均损失与合成视频平均损失相减得到损失函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于神思电子技术股份有限公司,未经神思电子技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010545322.X/1.html,转载请声明来源钻瓜专利网。