[发明专利]一种从单幅图像生成人脸动画的方法有效

申请号：	201811148661.3	申请日：	2018-09-29
公开（公告）号：	CN109448083B	公开（公告）日：	2019-09-13
发明（设计）人：	周昆;耿佳豪	申请（专利权）人：	浙江大学;杭州相芯科技有限公司
主分类号：	G06T13/80	分类号：	G06T13/80;G06T11/00;G06N3/04
代理公司：	杭州求是专利事务所有限公司 33200	代理人：	邱启旺
地址：	310058 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	单幅图像人脸动画人脸特征点人脸图像动画技术动画生成口腔区域人脸表情人脸区域图像全局纹理形变二维肖像视频图像优化应用
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种从单幅图像生成人脸动画的方法，其特征在于，包括以下步骤：

(1)图像中人脸特征点生成：计算图像中人脸与背景区域的特征点；

(2)图像全局二维形变：基于步骤(1)得到的初始特征点，以及用户或程序指定的特征点变化，通过全局二维形变，生成符合特征点约束的形变图像；

(3)人脸区域细节的优化：通过生成对抗神经网络来优化形变图像中人脸区域的纹理，所述人脸区域不包含口腔区域；

(4)口腔区域纹理的生成：通过生成对抗神经网络来合成口腔区域纹理，并生成最后的人脸动画图像；所述步骤(1)包括如下子步骤：

(1.1)人脸区域特征点的生成：检测目标人物初始图像脸部二维特征点、人物身份系数、表情系数及刚体变换系数，通过传递驱动人物的表情系数及刚体变换系数，生成对应的三维混合形变模型，将其投影到二维平面，得到偏移后的人脸特征点；

(1.2)背景区域特征点的生成：检测并追踪驱动视频中的非人脸区域特征点，并通过下式将其转化到目标图像中：

其中，s表示驱动人物，t表示目标人物，是目标人物偏移后的非人脸区域特征点，是驱动人物当前第i帧对应的特征点，是目标人物初始人脸特征点与驱动人物初始人脸特征点之间的刚体变换矩阵；通过上式，得到目标图像的非人脸区域特征点。

2.根据权利要求1所述的从单幅图像生成人脸动画的方法，其特征在于，所述步骤(2)具体为：根据偏移后的目标人物特征点与初始特征点，计算得到每个特征点的偏移值；以人脸区域特征点和背景区域特征点作为顶点，进行三角化，并对每个三角形中顶点偏移值插值得到偏移图；另外为了消除非人脸区域偏移值不连续问题，通过高斯核对偏移图中非人脸区域进行滤波，高斯核半径随着距离人脸区域距离增大而增大，其范围在[7,32]；最后通过上述偏移图,将原始图像中相应位置的像素转移到当前图像位置，如此得到形变图像。

3.根据权利要求2所述的从单幅图像生成人脸动画的方法，其特征在于，所述步骤(3)包括如下子步骤：

(3.1)训练基于形变引导的生成对抗神经网络，具体如下：

(3.1.1)训练数据：以视频为单位，对每段视频以10帧为间隔进行采样得到图像I_i，并检测其人脸特征点P_i；在{I_i|0<i<N}中选取中性表情图像I^*，并得到其对应特征点P^*；用P^*及P_i计算得到特征点偏移D_i，并通过对P_i三角化及对D_i插值形变I^*，得到I_i对应的形变图像W_i；另外在所有训练数据上统计人脸各部分特征点偏移的标准差，并用上述标准差对D_i按部位进行归一化处理，得到归一化的并以此生成偏移图M_i,最终以(W_i,M_i,I_i)组成一组训练数据；并利用翻转与裁剪操作进行数据增广；

(3.1.2)网络结构：对抗神经网络的网络结构是一种编码解码结构；将输入图像下采样两次，并让经过下采样的特征图通过4块残差模块,最后通过缩放卷积输出原始尺寸大小图像；另外网络在对应的下采样与上采样中添加跳跃式传递来保证图像结构的正确性，即含有两次跳跃式传递，因此网络结构可以表示为(C64,K7,S1,LReLU,Skip1)->(C128,K5,S2,LReLU,Skip2)->(C256,K3,S2,LReLU)->4*(RB256,K3,S1,LReLU)->(RC128,K3,R2,LReLU,Skip1)->(RC64,K3,R2,LReLU,Skip2)->(C3,K3,S1,Sigmoid)，其中C、RB、RC分别表示卷积层、残差模块、缩放卷积层，其后的数字表示该层输出的深度大小；K表示该模块中的核，其后的数字表示核的大小；S后的数字表示卷积层或残差模块中步幅大小，若该层进行下采样，则为S2,否则为S1；R后的数字表示缩放卷积层缩放比例，即当需要上采样是R2；另外Skip表示跳跃式传递，其后的数字表示编号，编号相同表示属于同一条跳跃式传递；LReLU及Sigmoid表示使用的激活函数，分辨器网络结构是一种编码结构，其通过卷积层将输入内容编码成特征向量，并利用全连接层输出用来衡量输入内容真实度的值，其结构可以表示为(C64,K7,S1,LReLU)->(C128,K5,S2,LReLU)->(C256,K3,S2,LReLU)->(C512,K3,S2,LReLU)->(C512,K3,S2,LReLU)->(C512,K3,S2,LReLU)->(FC1)，其中FC表示全连接层，其后的数字表示输出为1，全连接层没有任何激活函数；

(3.1.3)损失函数：用函数R(x_w,M)来表示优化器，其中x_w是输入的形变图像，M是偏移图；用D(x,M)来表示分辨器，其中x是优化器生成结果R(x_w,M)或真实图像x_g；训练网络的损失函数可以用下式定义：

其中，min_R表示对R优化器中参数求导，使得目标式子值最小化；max_D表示对D分辨器中参数求导，使得目标式子值最大化；表示对每个mini-batch求期望；L(R)为正则项，是R(x_w,M)与x_g之间的L1损失函数，用以约束优化器优化结果，其具体形式如下：

其中，α是超参，用来控制L(R)的比重，

另外，公式是对抗损失函数，在训练过程中，为了提高对抗训练效果，在分辨器训练过程中，将当前迭代优化器生成结果结合优化器历史结果作为分辨器输入；

(3.2)优化人脸区域细节：根据人脸特征点，对形变图像及初始人脸图像进行裁剪，分别得到两者的人脸区域图像，并对两者的人脸区域图像进行对齐，得到I_i与I_*及其对应人脸特征点P_i与P_*；用P_i与P_*做差，得到由I_*到I_i的特征点偏移D_i；对特征点偏移D_i按部位进行归一化处理，归一化操作如下：在整个训练数据集上按部位计算偏移值的标准差，并利用上述标准差，对D_i相应部位进行归一化处理得到并通过以特征点为顶点进行三角化操作及插值操作，将生成偏移图M_i；将I_i与M_i进行拼接，得到网络输入；输入网络后便可得到经过优化后的人脸图像。

4.根据权利要求3所述的从单幅图像生成人脸动画的方法，其特征在于，所述步骤(4)包括如下子步骤：

(4.1)训练适用于口腔内部纹理合成的生成对抗神经网络(hrh-GAN)，具体如下：

(4.1.1)训练数据：通过收集人脸图像，并检测其人脸特征点，通过口腔区域特征点，生成其对应口腔区域掩码图；人脸图像及对应的口腔区域掩码图组成hrh-GAN训练数据；使用翻转与裁剪操作进行数据增广；

(4.1.2)训练方式：以全卷积神经网络作为生成器来生成口腔区域，由全局分辨器及局部分辨器帮助生成器生成合理的口腔区域细节，全局分辨器与局部分辨器输入大小比例为8:3；

(4.2)生成口腔区域纹理：根据人脸特征点，计算3.2中得到的优化后的人脸图像对应的口腔区域掩码图，并将该人脸图像与口腔区域掩码图进行拼接，作为hrh-GAN生成器的输入，如此得到填补口腔区域后的人脸图像；最后将人脸图像通过平移与旋转，与形变图像中人脸位置对齐，并与形变图像中非人脸区域进行组合，得到最终目标人物肖像图。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江大学;杭州相芯科技有限公司，未经浙江大学;杭州相芯科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811148661.3/1.html，转载请声明来源钻瓜专利网。

上一篇：一种BIP角色动作镜向调节的方法
下一篇：一种基于体素化全局光照算法进行光贴图烘培的算法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06T 一般的图像数据处理或产生
G06T13-00 动画制作
G06T13-20 .3D［三维］动画
G06T13-80 .2D［二维］动画，如使用精灵sprites
G06T13-40 ..关于角色的，例如：人类、动物或虚幻人物
G06T13-60 ..关于自然景观的，例如：雨、雪、水或植物

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种从单幅图像生成人脸动画的方法有效

专利文献下载