[发明专利]一种基于StyleCLIP和3DDFA的文本调控三维人脸生成方法在审

专利信息
申请号: 202210710650.X 申请日: 2022-06-22
公开(公告)号: CN114998690A 公开(公告)日: 2022-09-02
发明(设计)人: 胡新荣;余开元;罗瑞奇;梁金星;彭涛;丁磊 申请(专利权)人: 武汉纺织大学
主分类号: G06V10/774 分类号: G06V10/774;G06T17/00
代理公司: 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 代理人: 王琪
地址: 430073 *** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 styleclip ddfa 文本 调控 三维 生成 方法
【权利要求书】:

1.一种基于StyleCLIP和3DDFA的文本调控三维人脸模型生成方法,其特征在于,包括以下步骤:

步骤S1,基于图像编辑网络StyleCLIP及三维重建网络3DDFA搭建组合网络;

步骤S2,获取输入需要的原始图像和目标文本;

步骤S3,将原始图像及目标文本输入组合网络,依据偏差损失L进行迭代训练,获得用于三维重建网络3DDFA中的参数p

步骤S4,使用训练好的参数p,利用三维重建网络3DDFA进行人脸三维重建。

2.根据权利要求1所述的一种基于深度学习算法的文本调控三维人脸模型生成方法,其特征在于:步骤S1中所述组合网络中包含一个预训练图像编码网络e4e,一个基于StyleGAN2的预训练图像生成网络G,一个多模态预训练网络CLIP,一个预训练三维重建网络3DDFA及一个预训练识别网络ArcFace。

3.根据权利要求2所述的一种基于深度学习算法的文本调控三维人脸模型生成方法,其特征在于:所述图像编码网络e4e及图像生成网络G均基于人脸数据集FFHQ进行训练。

4.根据权利要求2所述的一种基于深度学习算法的文本调控三维人脸模型生成方法,其特征在于:步骤S3中所述偏差损失L具体为:

其中λL2λID为一个常数比例值,LCLIP为图文匹配损失,具体为:

其中DCLIP为CLIP模型的输出,t为输入目标文本,w为经由图像编码网络e4e输出的生成图像隐编码,G(∙)表示图像生成网络的输出,LL2为编码距离损失,具体为:

其中ws为经由图像编码网络e4e输出的原始图像隐编码,LID为特征编码损失,具体为:

其中,R(∙)为ArcFace网络输出,FPAF (∙)为3DDFA网络特征图输出,〈∙〉为余弦相似度计算。

5.根据权利要求4所述的一种基于深度学习算法的文本调控三维人脸模型生成方法,其特征在于:图文匹配损失的具体获取过程如下;

使用图像编码网络e4e将原始图像转译为StyleGAN的输入形式,即依次输入StyleGAN生成器每一层的隐编码,首先将原始图像输入e4e编码网络,生成1×1×512×18的原始图像隐编码ws,隐编码按输入特征的层级由小到大排列,经由隐编码生成的图像在各级特征上与原始图像保持一致;

将隐编码输入生成器G后输出生成图像,把生成图像与目标文本输入CLIP模型,CLIP模型将目标文本和生成图像分别输入进两个编码器生成维度相同的两组特征向量,由于特征向量属于两组不同模态的特征空间,因此以余弦相似度来衡量图像与文本之间的相似度,即图文相似度LCLIP作为图文匹配损失。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉纺织大学,未经武汉纺织大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210710650.X/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top