[发明专利]基于双生成对抗网络的两阶段表情动画生成方法有效
申请号: | 202010621885.2 | 申请日: | 2020-07-01 |
公开(公告)号: | CN111783658B | 公开(公告)日: | 2023-08-25 |
发明(设计)人: | 郭迎春;王静洁;刘依;朱叶;郝小可;于洋;师硕;阎刚 | 申请(专利权)人: | 河北工业大学 |
主分类号: | G06T13/40 | 分类号: | G06T13/40;G06V40/16;G06V10/82;G06N3/045;G06N3/0475;G06N3/094 |
代理公司: | 天津翰林知识产权代理事务所(普通合伙) 12210 | 代理人: | 付长杰 |
地址: | 300130 天津市红桥区*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 双生 成对 网络 阶段 表情 动画 生成 方法 | ||
1.一种基于双生成对抗网络的两阶段表情动画生成方法,其特征在于,该方法首先在第一阶段中利用表情迁移网络FaceGAN提取目标表情轮廓图中的表情特征,并将其迁移到源人脸,生成第一阶段预测图;第二阶段中利用细节生成网络FineGAN来作为补充丰富第一阶段预测图中的对表情变化贡献比较大的眼睛和嘴巴区域的细节,生成细粒度的第二阶段预测图并合成人脸视频动画,表情迁移网络FaceGAN及细节生成网络FineGAN均采用生成对抗网络实现;
表情迁移网络FaceGAN包括一个生成器G1和一个判别器D1,其中生成器G1包括三个子网络,分别是一个身份编码器Encid和一个表情编码器Encexp,一个解码器Dec1;
细节生成网络FineGAN中包含生成器G2和判别器D2,D2是由一个全局判别器Dglobal、一个眼部局部判别器Deye和一个嘴部局部判别器Dmouth构成;
所述方法的具体步骤是:
第一步,获取数据集中每一帧图像的人脸表情轮廓图:
采集人脸表情视频序列数据集,使用Dlib机器学习库提取视频序列中每一帧图像中的人脸,同时获取每张人脸中的多个特征点,然后使用线段依次连接特征点,获得视频序列每一帧的表情轮廓图,记为e=(e1,e2,···,ei,···,en),其中e代表一个视频序列中所有表情轮廓图的集合,即表情轮廓图序列;n代表视频帧数,ei代表某个视频序列中第i帧的表情轮廓图;
第一阶段,搭建表情迁移网络FaceGAN,包括第二步到第四步:
第二步,提取源人脸的身份特征和目标表情轮廓图的表情特征,初步生成第一阶段预测图:
表情迁移网络FaceGAN包括一个生成器G1和一个判别器D1,其中生成器G1包括三个子网络,分别是两个编码器Encid和Encexp,一个解码器Dec1;
首先输入源人脸的一张中性无表情图像IN和目标表情轮廓图序列e,然后利用身份编码器Encid提取源人脸的中性无表情图像IN的身份特征向量fid,同时利用表情编码器Encexp提取目标表情轮廓图序列e的表情特征向量集合fexp,其中fexp=(fexp_1,fexp_2,···,fexp_i,···,fexp_n),公式表达为:
fid=Encid(IN) (1),
fexp_i=Encexp(ei) (2),
将身份特征向量fid和第i帧的表情特征向量fexp_i进行串联,得到特征向量f且f=fid+fexp_i,将特征向量f输送到解码器Dec1进行解码,生成第一阶段预测图Ipre-target,且Ipre-target=Dec1(f),最后将Ipre-target输入到判别器D1中判别图像的真假;
第三步,将第一阶段预测图作为输入,采用CycleGAN的思想重构源人脸中性图像:
将第一阶段预测图Ipre-target和上述第二步中的中性无表情图像IN所对应的表情轮廓图eN重新作为表情迁移网络FaceGAN的输入,利用身份编码器Encid提取图像Ipre-target的身份特征向量,同时利用表情编码器Encexp提取表情轮廓图eN的表情特征向量,重复进行上述第二步的操作,经解码器解码生成IN的重构图像Irecon,生成重构图像Irecon的公式表达为:
Irecon=Dec1(Encid(Ipre-target)+Encexp(eN)) (3);
第四步,计算第一阶段表情迁移网络FaceGAN中的损失函数:
上述第一阶段表情迁移网络FaceGAN中的生成器G1的损失函数具体公式为:
其中,
其中,Ireal为目标真实值,公式(5)为生成器的对抗损失,D1(·)表示判别器D1对象为真的概率,公式(6)中的SSIM(·)函数用来衡量两张图像之间的相似性,公式(7)为像素损失,MAE(·)函数为均方误差函数,用来衡量真实值与预测值之间的差距,公式(8)为感知损失,利用VGG-19提取图像的感知特征,采用VGG-19网络中的最后一个卷积层输出的特征作为图像的感知特征,以此计算生成图像与真实图像之间的感知损失,公式(9)为重构损失,计算源人脸的中性无表情图像IN和其重构图像Irecon之间的距离;
上述第一阶段表情迁移网络FaceGAN中的判别器D1的损失函数具体公式为:
其中,
公式(11)为对抗损失,公式(12)为重构图像的对抗损失,其中,λ1和λ2为相似性损失与感知损失在FaceGAN的生成器G1中的权重参数,λ3为重构图像的对抗损失在FaceGAN判别器损失中的权重参数;
搭建第二阶段的细节生成网络FineGAN,包括第五步到第七步:
第五步,生成适应个体的局部掩模向量:
将上述第一步中获得的每张人脸中的多个特征点用于提取出眼睛区域Ieye和嘴巴区域Imouth,分别设置眼睛掩模向量Meye和嘴巴掩模向量Mmouth,以眼部为例,将图像中眼睛区域的像素值设为1,其他区域像素值设为0,构成眼睛掩模向量Meye,嘴巴掩膜向量Mmouth的构成与眼睛掩模向量Meye类似;
第六步,将上述第一阶段预测图输入到第二阶段的网络中,进行细节优化:
细节生成网络FineGAN中包含生成器G2和判别器D2,D2是由一个全局判别器Dglobal和两个局部判别器Deye和Dmouth构成;
将第一阶段预测图Ipre-target和第二步中的中性无表情图像IN输入到生成器G2中,生成具有更多人脸细节的第二阶段预测图Itarget,然后将第二阶段预测图Itarget同时输入到三个判别器中,通过全局判别器Dglobal对第二阶段预测图Itarget进行全局判别,使第二阶段预测图Itarget与目标真实图像Ireal尽可能接近,通过眼部局部判别器Deye和嘴部局部判别器Dmouth对第二阶段预测图Itarget的眼部和嘴部区域进一步着重优化,使得第二阶段预测图Itarget更加逼真,第二阶段预测图Itarget的公式表达为:
Itarget=G2(Ipre-target,IN) (13);
第七步,计算第二阶段FineGAN中的损失函数:
生成器G2损失函数具体公式为:
其中,
公式(15)为对抗损失,包含全局对抗损失和局部对抗损失,操作符是哈达玛积,公式(16)为像素损失,公式(17)和公式(18)为局部像素损失,计算生成图像的局部区域与真实图像的局部区域的像素差值的L1范数,公式(19)为局部感知损失,生成器G2总损失函数即各损失函数的加权和;
判别器D2的损失函数具体公式为:
其中,
公式(21)为全局判别器的对抗损失,公式(22)和公式(23)为局部判别器的对抗损失,其中,λ4和λ5分别为局部对抗损失在FineGAN生成器G2中的权重参数,λ6和λ7分别为眼部像素损失和嘴部像素损失在FineGAN生成器G2中的权重参数,λ8为局部感知损失在FineGAN生成器G2中的权重参数,λ9为全局对抗损失损失在FineGAN判别器D2中的权重参数;
第八步,合成视频:
每一帧均是独立生成,因此在完成n帧图像(Itarget_1,Itarget_2,···,Itarget_i,···,Itarget_n)的生成后,将视频帧序列合成最终的人脸动画;
至此,完成基于双生成对抗网络的两阶段表情动画的生成,对人脸图像中的表情进行了转换,并优化了图像细节。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河北工业大学,未经河北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010621885.2/1.html,转载请声明来源钻瓜专利网。