[发明专利]一种从单幅图像生成人脸动画的方法有效
申请号: | 201811148661.3 | 申请日: | 2018-09-29 |
公开(公告)号: | CN109448083B | 公开(公告)日: | 2019-09-13 |
发明(设计)人: | 周昆;耿佳豪 | 申请(专利权)人: | 浙江大学;杭州相芯科技有限公司 |
主分类号: | G06T13/80 | 分类号: | G06T13/80;G06T11/00;G06N3/04 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 单幅图像 人脸动画 人脸特征点 人脸图像 动画技术 动画生成 口腔区域 人脸表情 人脸区域 图像全局 纹理 形变 二维 肖像 视频 图像 优化 应用 | ||
1.一种从单幅图像生成人脸动画的方法,其特征在于,包括以下步骤:
(1)图像中人脸特征点生成:计算图像中人脸与背景区域的特征点;
(2)图像全局二维形变:基于步骤(1)得到的初始特征点,以及用户或程序指定的特征点变化,通过全局二维形变,生成符合特征点约束的形变图像;
(3)人脸区域细节的优化:通过生成对抗神经网络来优化形变图像中人脸区域的纹理,所述人脸区域不包含口腔区域;
(4)口腔区域纹理的生成:通过生成对抗神经网络来合成口腔区域纹理,并生成最后的人脸动画图像;所述步骤(1)包括如下子步骤:
(1.1)人脸区域特征点的生成:检测目标人物初始图像脸部二维特征点、人物身份系数、表情系数及刚体变换系数,通过传递驱动人物的表情系数及刚体变换系数,生成对应的三维混合形变模型,将其投影到二维平面,得到偏移后的人脸特征点;
(1.2)背景区域特征点的生成:检测并追踪驱动视频中的非人脸区域特征点,并通过下式将其转化到目标图像中:
其中,s表示驱动人物,t表示目标人物,是目标人物偏移后的非人脸区域特征点,是驱动人物当前第i帧对应的特征点,是目标人物初始人脸特征点与驱动人物初始人脸特征点之间的刚体变换矩阵;通过上式,得到目标图像的非人脸区域特征点。
2.根据权利要求1所述的从单幅图像生成人脸动画的方法,其特征在于,所述步骤(2)具体为:根据偏移后的目标人物特征点与初始特征点,计算得到每个特征点的偏移值;以人脸区域特征点和背景区域特征点作为顶点,进行三角化,并对每个三角形中顶点偏移值插值得到偏移图;另外为了消除非人脸区域偏移值不连续问题,通过高斯核对偏移图中非人脸区域进行滤波,高斯核半径随着距离人脸区域距离增大而增大,其范围在[7,32];最后通过上述偏移图,将原始图像中相应位置的像素转移到当前图像位置,如此得到形变图像。
3.根据权利要求2所述的从单幅图像生成人脸动画的方法,其特征在于,所述步骤(3)包括如下子步骤:
(3.1)训练基于形变引导的生成对抗神经网络,具体如下:
(3.1.1)训练数据:以视频为单位,对每段视频以10帧为间隔进行采样得到图像Ii,并检测其人脸特征点Pi;在{Ii|0<i<N}中选取中性表情图像I*,并得到其对应特征点P*;用P*及Pi计算得到特征点偏移Di,并通过对Pi三角化及对Di插值形变I*,得到Ii对应的形变图像Wi;另外在所有训练数据上统计人脸各部分特征点偏移的标准差,并用上述标准差对Di按部位进行归一化处理,得到归一化的并以此生成偏移图Mi,最终以(Wi,Mi,Ii)组成一组训练数据;并利用翻转与裁剪操作进行数据增广;
(3.1.2)网络结构:对抗神经网络的网络结构是一种编码解码结构;将输入图像下采样两次,并让经过下采样的特征图通过4块残差模块,最后通过缩放卷积输出原始尺寸大小图像;另外网络在对应的下采样与上采样中添加跳跃式传递来保证图像结构的正确性,即含有两次跳跃式传递,因此网络结构可以表示为(C64,K7,S1,LReLU,Skip1)->(C128,K5,S2,LReLU,Skip2)->(C256,K3,S2,LReLU)->4*(RB256,K3,S1,LReLU)->(RC128,K3,R2,LReLU,Skip1)->(RC64,K3,R2,LReLU,Skip2)->(C3,K3,S1,Sigmoid),其中C、RB、RC分别表示卷积层、残差模块、缩放卷积层,其后的数字表示该层输出的深度大小;K表示该模块中的核,其后的数字表示核的大小;S后的数字表示卷积层或残差模块中步幅大小,若该层进行下采样,则为S2,否则为S1;R后的数字表示缩放卷积层缩放比例,即当需要上采样是R2;另外Skip表示跳跃式传递,其后的数字表示编号,编号相同表示属于同一条跳跃式传递;LReLU及Sigmoid表示使用的激活函数,分辨器网络结构是一种编码结构,其通过卷积层将输入内容编码成特征向量,并利用全连接层输出用来衡量输入内容真实度的值,其结构可以表示为(C64,K7,S1,LReLU)->(C128,K5,S2,LReLU)->(C256,K3,S2,LReLU)->(C512,K3,S2,LReLU)->(C512,K3,S2,LReLU)->(C512,K3,S2,LReLU)->(FC1),其中FC表示全连接层,其后的数字表示输出为1,全连接层没有任何激活函数;
(3.1.3)损失函数:用函数R(xw,M)来表示优化器,其中xw是输入的形变图像,M是偏移图;用D(x,M)来表示分辨器,其中x是优化器生成结果R(xw,M)或真实图像xg;训练网络的损失函数可以用下式定义:
其中,minR表示对R优化器中参数求导,使得目标式子值最小化;maxD表示对D分辨器中参数求导,使得目标式子值最大化;表示对每个mini-batch求期望;L(R)为正则项,是R(xw,M)与xg之间的L1损失函数,用以约束优化器优化结果,其具体形式如下:
其中,α是超参,用来控制L(R)的比重,
另外,公式是对抗损失函数,在训练过程中,为了提高对抗训练效果,在分辨器训练过程中,将当前迭代优化器生成结果结合优化器历史结果作为分辨器输入;
(3.2)优化人脸区域细节:根据人脸特征点,对形变图像及初始人脸图像进行裁剪,分别得到两者的人脸区域图像,并对两者的人脸区域图像进行对齐,得到Ii与I*及其对应人脸特征点Pi与P*;用Pi与P*做差,得到由I*到Ii的特征点偏移Di;对特征点偏移Di按部位进行归一化处理,归一化操作如下:在整个训练数据集上按部位计算偏移值的标准差,并利用上述标准差,对Di相应部位进行归一化处理得到并通过以特征点为顶点进行三角化操作及插值操作,将生成偏移图Mi;将Ii与Mi进行拼接,得到网络输入;输入网络后便可得到经过优化后的人脸图像。
4.根据权利要求3所述的从单幅图像生成人脸动画的方法,其特征在于,所述步骤(4)包括如下子步骤:
(4.1)训练适用于口腔内部纹理合成的生成对抗神经网络(hrh-GAN),具体如下:
(4.1.1)训练数据:通过收集人脸图像,并检测其人脸特征点,通过口腔区域特征点,生成其对应口腔区域掩码图;人脸图像及对应的口腔区域掩码图组成hrh-GAN训练数据;使用翻转与裁剪操作进行数据增广;
(4.1.2)训练方式:以全卷积神经网络作为生成器来生成口腔区域,由全局分辨器及局部分辨器帮助生成器生成合理的口腔区域细节,全局分辨器与局部分辨器输入大小比例为8:3;
(4.2)生成口腔区域纹理:根据人脸特征点,计算3.2中得到的优化后的人脸图像对应的口腔区域掩码图,并将该人脸图像与口腔区域掩码图进行拼接,作为hrh-GAN生成器的输入,如此得到填补口腔区域后的人脸图像;最后将人脸图像通过平移与旋转,与形变图像中人脸位置对齐,并与形变图像中非人脸区域进行组合,得到最终目标人物肖像图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学;杭州相芯科技有限公司,未经浙江大学;杭州相芯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811148661.3/1.html,转载请声明来源钻瓜专利网。