[发明专利]一种基于StyleCLIP和3DDFA的文本调控三维人脸生成方法在审

申请号：	202210710650.X	申请日：	2022-06-22
公开（公告）号：	CN114998690A	公开（公告）日：	2022-09-02
发明（设计）人：	胡新荣;余开元;罗瑞奇;梁金星;彭涛;丁磊	申请（专利权）人：	武汉纺织大学
主分类号：	G06V10/774	分类号：	G06V10/774;G06T17/00
代理公司：	武汉科皓知识产权代理事务所(特殊普通合伙) 42222	代理人：	王琪
地址：	430073 ***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 styleclip ddfa 文本调控三维生成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于StyleCLIP和3DDFA的文本调控三维人脸模型生成方法，其特征在于，包括以下步骤：

步骤S1，基于图像编辑网络StyleCLIP及三维重建网络3DDFA搭建组合网络；

步骤S2，获取输入需要的原始图像和目标文本；

步骤S3，将原始图像及目标文本输入组合网络，依据偏差损失L进行迭代训练，获得用于三维重建网络3DDFA中的参数p；

步骤S4，使用训练好的参数p，利用三维重建网络3DDFA进行人脸三维重建。

2.根据权利要求1所述的一种基于深度学习算法的文本调控三维人脸模型生成方法，其特征在于：步骤S1中所述组合网络中包含一个预训练图像编码网络e4e，一个基于StyleGAN2的预训练图像生成网络G，一个多模态预训练网络CLIP，一个预训练三维重建网络3DDFA及一个预训练识别网络ArcFace。

3.根据权利要求2所述的一种基于深度学习算法的文本调控三维人脸模型生成方法，其特征在于：所述图像编码网络e4e及图像生成网络G均基于人脸数据集FFHQ进行训练。

4.根据权利要求2所述的一种基于深度学习算法的文本调控三维人脸模型生成方法，其特征在于：步骤S3中所述偏差损失L具体为：

其中λ_L2、λ_ID为一个常数比例值，L_CLIP为图文匹配损失，具体为：

其中D_CLIP为CLIP模型的输出，t为输入目标文本，w为经由图像编码网络e4e输出的生成图像隐编码，G(∙)表示图像生成网络的输出，L_L2为编码距离损失，具体为：

其中w_s为经由图像编码网络e4e输出的原始图像隐编码，L_ID为特征编码损失，具体为：

其中，R(∙)为ArcFace网络输出，F_PAF (∙)为3DDFA网络特征图输出，〈∙〉为余弦相似度计算。

5.根据权利要求4所述的一种基于深度学习算法的文本调控三维人脸模型生成方法，其特征在于：图文匹配损失的具体获取过程如下；

使用图像编码网络e4e将原始图像转译为StyleGAN的输入形式，即依次输入StyleGAN生成器每一层的隐编码，首先将原始图像输入e4e编码网络，生成1×1×512×18的原始图像隐编码w_s，隐编码按输入特征的层级由小到大排列，经由隐编码生成的图像在各级特征上与原始图像保持一致；

将隐编码输入生成器G后输出生成图像，把生成图像与目标文本输入CLIP模型，CLIP模型将目标文本和生成图像分别输入进两个编码器生成维度相同的两组特征向量，由于特征向量属于两组不同模态的特征空间，因此以余弦相似度来衡量图像与文本之间的相似度，即图文相似度L_CLIP作为图文匹配损失。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于武汉纺织大学，未经武汉纺织大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210710650.X/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载