[发明专利]基于双生成对抗网络的两阶段表情动画生成方法有效

申请号：	202010621885.2	申请日：	2020-07-01
公开（公告）号：	CN111783658B	公开（公告）日：	2023-08-25
发明（设计）人：	郭迎春;王静洁;刘依;朱叶;郝小可;于洋;师硕;阎刚	申请（专利权）人：	河北工业大学
主分类号：	G06T13/40	分类号：	G06T13/40;G06V40/16;G06V10/82;G06N3/045;G06N3/0475;G06N3/094
代理公司：	天津翰林知识产权代理事务所(普通合伙) 12210	代理人：	付长杰
地址：	300130 天津市红桥区***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于双生成对网络阶段表情动画生成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于双生成对抗网络的两阶段表情动画生成方法，其特征在于，该方法首先在第一阶段中利用表情迁移网络FaceGAN提取目标表情轮廓图中的表情特征，并将其迁移到源人脸，生成第一阶段预测图；第二阶段中利用细节生成网络FineGAN来作为补充丰富第一阶段预测图中的对表情变化贡献比较大的眼睛和嘴巴区域的细节，生成细粒度的第二阶段预测图并合成人脸视频动画，表情迁移网络FaceGAN及细节生成网络FineGAN均采用生成对抗网络实现；

表情迁移网络FaceGAN包括一个生成器G₁和一个判别器D₁，其中生成器G₁包括三个子网络，分别是一个身份编码器Enc_id和一个表情编码器Enc_exp，一个解码器Dec₁；

细节生成网络FineGAN中包含生成器G₂和判别器D₂，D₂是由一个全局判别器D_global、一个眼部局部判别器D_eye和一个嘴部局部判别器D_mouth构成；

所述方法的具体步骤是：

第一步，获取数据集中每一帧图像的人脸表情轮廓图：

采集人脸表情视频序列数据集，使用Dlib机器学习库提取视频序列中每一帧图像中的人脸，同时获取每张人脸中的多个特征点，然后使用线段依次连接特征点，获得视频序列每一帧的表情轮廓图，记为e＝(e₁,e₂,···,e_i,···,e_n)，其中e代表一个视频序列中所有表情轮廓图的集合，即表情轮廓图序列；n代表视频帧数，e_i代表某个视频序列中第i帧的表情轮廓图；

第一阶段，搭建表情迁移网络FaceGAN，包括第二步到第四步：

第二步，提取源人脸的身份特征和目标表情轮廓图的表情特征，初步生成第一阶段预测图：

表情迁移网络FaceGAN包括一个生成器G₁和一个判别器D₁，其中生成器G₁包括三个子网络，分别是两个编码器Enc_id和Enc_exp，一个解码器Dec₁；

首先输入源人脸的一张中性无表情图像I_N和目标表情轮廓图序列e，然后利用身份编码器Enc_id提取源人脸的中性无表情图像I_N的身份特征向量f_id，同时利用表情编码器Enc_exp提取目标表情轮廓图序列e的表情特征向量集合f_exp，其中f_exp＝(f_{exp_1},f_{exp_2},···,f_{exp_i},···,f_{exp_n})，公式表达为：

f_id＝Enc_id(I_N) (1),

f_{exp_i}＝Enc_exp(e_i) (2),

将身份特征向量f_id和第i帧的表情特征向量f_{exp_i}进行串联，得到特征向量f且f＝f_id+f_{exp_i}，将特征向量f输送到解码器Dec₁进行解码，生成第一阶段预测图I_pre-target，且I_pre-target＝Dec₁(f)，最后将I_pre-target输入到判别器D₁中判别图像的真假；

第三步，将第一阶段预测图作为输入，采用CycleGAN的思想重构源人脸中性图像：

将第一阶段预测图I_pre-target和上述第二步中的中性无表情图像I_N所对应的表情轮廓图e_N重新作为表情迁移网络FaceGAN的输入，利用身份编码器Enc_id提取图像I_pre-target的身份特征向量，同时利用表情编码器Enc_exp提取表情轮廓图e_N的表情特征向量，重复进行上述第二步的操作，经解码器解码生成I_N的重构图像I_recon，生成重构图像I_recon的公式表达为：

I_recon＝Dec₁(Enc_id(I_pre-target)+Enc_exp(e_N)) (3)；

第四步，计算第一阶段表情迁移网络FaceGAN中的损失函数：

上述第一阶段表情迁移网络FaceGAN中的生成器G₁的损失函数具体公式为：

其中，

其中，I_real为目标真实值，公式(5)为生成器的对抗损失，D1(·)表示判别器D1对象为真的概率，公式(6)中的SSIM(·)函数用来衡量两张图像之间的相似性，公式(7)为像素损失，MAE(·)函数为均方误差函数，用来衡量真实值与预测值之间的差距，公式(8)为感知损失，利用VGG-19提取图像的感知特征，采用VGG-19网络中的最后一个卷积层输出的特征作为图像的感知特征，以此计算生成图像与真实图像之间的感知损失，公式(9)为重构损失，计算源人脸的中性无表情图像I_N和其重构图像I_recon之间的距离；

上述第一阶段表情迁移网络FaceGAN中的判别器D₁的损失函数具体公式为：

其中，

公式(11)为对抗损失，公式(12)为重构图像的对抗损失，其中，λ₁和λ₂为相似性损失与感知损失在FaceGAN的生成器G₁中的权重参数，λ₃为重构图像的对抗损失在FaceGAN判别器损失中的权重参数；

搭建第二阶段的细节生成网络FineGAN，包括第五步到第七步:

第五步，生成适应个体的局部掩模向量：

将上述第一步中获得的每张人脸中的多个特征点用于提取出眼睛区域I_eye和嘴巴区域I_mouth，分别设置眼睛掩模向量M_eye和嘴巴掩模向量M_mouth，以眼部为例，将图像中眼睛区域的像素值设为1，其他区域像素值设为0，构成眼睛掩模向量M_eye，嘴巴掩膜向量M_mouth的构成与眼睛掩模向量M_eye类似；

第六步，将上述第一阶段预测图输入到第二阶段的网络中，进行细节优化：

细节生成网络FineGAN中包含生成器G₂和判别器D₂，D₂是由一个全局判别器D_global和两个局部判别器D_eye和D_mouth构成；

将第一阶段预测图I_pre-target和第二步中的中性无表情图像I_N输入到生成器G₂中，生成具有更多人脸细节的第二阶段预测图I_target，然后将第二阶段预测图I_target同时输入到三个判别器中，通过全局判别器D_global对第二阶段预测图I_target进行全局判别，使第二阶段预测图I_target与目标真实图像I_real尽可能接近，通过眼部局部判别器D_eye和嘴部局部判别器D_mouth对第二阶段预测图I_target的眼部和嘴部区域进一步着重优化，使得第二阶段预测图I_target更加逼真，第二阶段预测图I_target的公式表达为：

I_target＝G₂(I_pre-target,I_N) (13)；

第七步，计算第二阶段FineGAN中的损失函数：

生成器G₂损失函数具体公式为：

其中，

公式(15)为对抗损失，包含全局对抗损失和局部对抗损失，操作符是哈达玛积，公式(16)为像素损失，公式(17)和公式(18)为局部像素损失，计算生成图像的局部区域与真实图像的局部区域的像素差值的L1范数，公式(19)为局部感知损失，生成器G₂总损失函数即各损失函数的加权和；

判别器D₂的损失函数具体公式为：

其中，

公式(21)为全局判别器的对抗损失，公式(22)和公式(23)为局部判别器的对抗损失，其中，λ₄和λ₅分别为局部对抗损失在FineGAN生成器G₂中的权重参数，λ₆和λ₇分别为眼部像素损失和嘴部像素损失在FineGAN生成器G₂中的权重参数，λ₈为局部感知损失在FineGAN生成器G₂中的权重参数，λ₉为全局对抗损失损失在FineGAN判别器D₂中的权重参数；

第八步，合成视频：

每一帧均是独立生成，因此在完成n帧图像(I_{target_1},I_{target_2},···,I_{target_i},···,I_{target_n})的生成后，将视频帧序列合成最终的人脸动画；

至此，完成基于双生成对抗网络的两阶段表情动画的生成，对人脸图像中的表情进行了转换，并优化了图像细节。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于河北工业大学，未经河北工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010621885.2/1.html，转载请声明来源钻瓜专利网。

上一篇：文件传输方法、装置、计算机设备和存储介质
下一篇：应用程序的管理方法、装置、存储介质及电子设备

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06T 一般的图像数据处理或产生
G06T13-00 动画制作
G06T13-20 .3D［三维］动画
G06T13-80 .2D［二维］动画，如使用精灵sprites
G06T13-40 ..关于角色的，例如：人类、动物或虚幻人物
G06T13-60 ..关于自然景观的，例如：雨、雪、水或植物

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于双生成对抗网络的两阶段表情动画生成方法有效

专利文献下载