[发明专利]基于多模态驱动的情感可控面部动画生成方法有效
申请号: | 202210744504.9 | 申请日: | 2022-06-27 |
公开(公告)号: | CN115100329B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 李瑶;赵子康;李峰;郭浩;杨艳丽;程忱;曹锐 | 申请(专利权)人: | 太原理工大学 |
主分类号: | G06T13/40 | 分类号: | G06T13/40;G06V40/16;G06V10/774;G06V10/82;G06N3/0442;G06N3/0475;G06N3/08;G10L25/63 |
代理公司: | 成都东恒知盛知识产权代理事务所(特殊普通合伙) 51304 | 代理人: | 何健雄 |
地址: | 030000 *** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多模态 驱动 情感 可控 面部 动画 生成 方法 | ||
1.基于多模态驱动的情感可控面部动画生成方法,其特征在于,包括以下步骤:
步骤S1:对肖像视频的图像进行预处理,对预处理后的图像使用面部识别算法,提取面部3D特征坐标序列;
步骤S2:对肖像视频的音频进行预处理,然后使用语音转换方法将预处理后的音频,解耦成与音频演讲者无关的音频内容向量,以及与音频演讲者相关的音频风格向量;
步骤S3:基于面部3D特征坐标序列和音频内容向量,训练由多层感知器和长短时记忆网络组成的面部唇音坐标动画生成网络;
步骤S4:基于面部3D特征坐标序列、音频内容向量与音频风格向量,训练由多层感知器、长短时记忆网络、自注意力机制和生成对抗网络组成的面部情感坐标动画生成网络;
步骤S5:基于面部3D特征坐标序列,训练由生成对抗网络组成的坐标转视频网络;
步骤S6:基于训练好的面部唇音坐标动画生成网络、面部情感坐标动画生成网络和坐标转视频网络,输入任意两张肖像图片和一段任意音频,其中,两张肖像图片中,一张代表身份源,一张代表情感源;生成具有情感源所对应情绪的目标肖像的唇音同步视频;
步骤S3中,所述面部唇音坐标动画生成网络采用自定义的编码器-解码器网络结构,编码器包含一个两层MLP组成的面部坐标编码器和一个三层LSTM组成的语音内容编码器,解码器为一个三层MLP组成的面部唇音坐标解码器;面部唇音坐标动画生成网络设置有一个损失函数,用于不断调整网络的权重和偏差,直至预测的坐标和参考坐标误差最小化;
步骤S3中,面部唇音坐标动画生成网络训练过程如下:
首先使用两层MLP提取步骤S1所得的视频第一帧面部3D特征坐标序列的身份特征,即面部3D特征坐标序列的第一个时间点的身份特征;
接着基于上述身份特征与步骤S2所得的音频内容向量,进行线性融合后,利用三层单元的LSTM,提取音频连续音节与唇部坐标依赖关系;
然后基于该步骤编码器的输出,利用三层MLP组成的解码器预测面部唇音坐标偏移量序列,具体计算公式如下:
ΔPt=MLPc(LSTMc(Ect→t+λ,MLPL(L;Wmlp,l);Wlstm);Wmlp,c)
式中,ΔPt表示预测的第t帧面部唇音坐标偏移量,t表示肖像视频的当前帧;MLPL表示面部坐标编码器,L为肖像视频第一帧的面部坐标,Wmlp,l表示面部坐标编码器可学习参数;LSTMc表示语音内容编码器,Ec表示音频内容向量,t→t+λ表示音频内容向量每帧t以λ=18的批量大小输入到语音内容编码器,Wlstm表示语音内容编码器可学习参数;MLPc表示面部唇音坐标解码器,Wmlp,c表示面部唇音坐标解码器可学习参数;
通过预测的面部唇音坐标偏移量序列对肖像视频第一帧坐标的修正,得到唇音同步的坐标序列,具体计算公式如下:
Pt=L+ΔPt
式中,Pt表示第t帧唇音同步的面部坐标,t表示肖像视频的当前帧;L为肖像视频第一帧的面部坐标,ΔPt表示预测的第t帧面部唇音坐标偏移量;
为生成最优的面部唇音坐标偏移量序列,基于上述面部唇音坐标动画生成网络的编码器-解码器结构,设置了损失函数调整网络的权重与偏差,损失函数具体计算公式如下:
式中,表示面部唇音坐标动画生成网络的损失函数,T表示视频的总帧率,t表示肖像视频的当前帧,N=68表示面部坐标的总数量,i表示当前面部坐标编号;Pi,t表示预测的第i个第t帧的坐标,表示步骤S1得到的第i个第t帧的坐标;表示Pi,t与的欧几里得范数的平方;
当损失函数趋于平滑,即达到最小值,面部唇音坐标动画生成网络的训练完成;
步骤S4中,所述面部情感坐标动画生成网络采用自定义的编码器-解码器网络结构:
编码器包含音频编码器和面部坐标编码器,其中,面部坐标编码器包括身份源面部坐标编码器和情感源面部坐标编码器,音频编码器通过一个三层的LSTM、一个三层MLP和自注意力机制捕获音频特征;
解码器包含一个坐标解码器;
编码器用于获取音频特征、肖像身份特征和肖像情感特征,解码器用于处理多模态特征,通过音频特征和肖像情感特征共同驱动,生成目标肖像情感重塑后的坐标偏移量序列;
面部情感坐标动画生成网络设置有三个不同的损失函数调整网络的权重与偏差,其一计算预测的面部3D特征坐标序列与步骤S1得到的面部3D特征坐标序列之间的距离,其二、三为鉴定器损失函数,分别去判别生成面部坐标的真假和面部坐标间隔帧的相似度;
步骤S4中,面部情感坐标动画生成网络训练过程如下:
首先使用LSTM提取步骤S2所得的音频内容向量的特征;
接着使用MLP提取步骤S2所得的音频风格向量的特征;
然后,对音频内容向量特征和音频风格向量特征进行线性融合;
最后使用自注意力机制捕捉音频内容向量和音频风格向量间的更长时间结构化依赖关系,以得到时间依赖性更强的音频特征,具体计算公式如下:
St=Attn(LSTMc′(Ect→t+λ;W′lstm),MLPs(Es;Wmlp,s);Wattn)
式中,St表示处理后的第t帧音频特征,t表示肖像视频的当前帧;MLPS表示音频风格向量编码器,Es表示音频风格向量,Wmlp,s表示音频风格向量编码器可学习参数;LSTMc′表示音频内容向量编码器,Ec表示音频内容向量,t→t+λ表示音频内容向量每帧t以λ=18的批量大小输入到音频内容向量编码器,W′lstm表示音频内容向量编码器可学习参数;Attn表示自注意力机制,Wattn表示自注意力机制可学习参数;
两个面部坐标编码器均为七层MLP组成的轻型神经网络,一个提取身份的几何信息,一个提取面部情绪的几何信息;
基于步骤S1所得的两个不同的面部坐标,一个视为身份源面部坐标序列,一个视为情感源面部坐标序列,首先使用由七层MLP组成的身份源面部坐标编码器提取身份源的肖像身份特征;接着使用由七层MLP组成的情感源面部坐标编码器提取情感源的肖像情感特征;最后对肖像身份特征、肖像情感特征和所得的音频特征进行线性融合,得到融合特征,具体计算公式如下:
Ft=concat(MLPLA(La;Wmlp,la),MLPLB(Lb;Wmlp,lb),St)
式中,Ft表示线性融合后的第t帧特征,concat表示线性融合;MLPLA表示身份源面部坐标编码器,La为身份源肖像视频第一帧的面部坐标,Wmlp,la表示身份源面部坐标编码器可学习参数;MLPLB表示情感源面部坐标编码器,Lb为情感源肖像视频第一帧的面部坐标,Wmlp,lb表示情感源面部坐标编码器可学习参数;St表示步骤S4的第t帧音频特征;
基于肖像身份特征、肖像情感特征和音频特征的融合特征,使用由三层MLP组成的坐标解码器,预测面部情感坐标偏移量序列,具体计算公式如下:
ΔQt=MLPLD(Ft;Wmlp,ld)
式中,ΔQt表示预测的第t帧情感坐标偏移量,t表示肖像视频的当前帧;MLPLD表示面部情感坐标动画生成网络的解码器,Ft为步骤S4线性融合后的第t帧融合特征,Wmlp,ld表示该解码器可学习参数;
通过预测的面部情感坐标偏移量序列对身份源肖像视频第一帧坐标的修正,得到面部情感坐标序列,具体计算公式如下:
Qt=La+ΔQt
式中,Qt表示情感面部坐标,t表示肖像视频的当前帧;La为身份源肖像视频第一帧的面部坐标,ΔQt表示预测的第t帧情感坐标偏移量;
为生成最优的面部情感坐标偏移量序列,基于面部情感坐标动画生成网络的编码器-解码器结构,设置了三个不同的损失函数调整网络的权重与偏差,具体公式如下:
式中,表示面部情感坐标动画生成网络的总损失函数,表示面部情感坐标动画生成网络的损失函数,表示面部坐标真假鉴别器DL的损失函数,表示面部坐标间隔帧相似度鉴别器DT的损失函数;λ1,λ2,λ3分别为权重参数;
其中,面部情感坐标动画生成网络的损失函数计算预测的面部情感坐标序列与步骤S1所得的面部坐标之间的距离,具体计算公式如下:
式中,表示面部情感坐标动画生成网络的损失函数,T表示视频的总帧率,t表示肖像视频的当前帧,N=68表示面部坐标的总数量,i表示当前面部坐标编号;Qi,t表示预测的第i个第t帧的面部坐标,表示步骤S1得到的第i个第t帧的面部坐标;表示Qi,t与的欧几里得范数的平方;
在面部情感坐标动画生成网络训练期间,鉴别器损失函数用于判别生成的面部坐标的真假,鉴别器损失函数用于估计面部间隔帧坐标的相似度,公式如下:
式中,t表示肖像视频的当前帧,DL表示面部坐标真假鉴别器,表示面部坐标真假鉴别器DL的损失函数;DT表示面部坐标间隔帧相似度鉴别器,表示面部坐标间隔帧相似度鉴别器DT的损失函数;Qt表示预测的第t帧面部情感坐标,表示步骤S1得到的第t帧面部坐标,表示前一帧的面部坐标;
当损失函数趋于平滑,面部情感坐标动画生成网络的训练完成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于太原理工大学,未经太原理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210744504.9/1.html,转载请声明来源钻瓜专利网。