[发明专利]一种基于StyleCLIP和3DDFA的文本调控三维人脸生成方法在审
申请号: | 202210710650.X | 申请日: | 2022-06-22 |
公开(公告)号: | CN114998690A | 公开(公告)日: | 2022-09-02 |
发明(设计)人: | 胡新荣;余开元;罗瑞奇;梁金星;彭涛;丁磊 | 申请(专利权)人: | 武汉纺织大学 |
主分类号: | G06V10/774 | 分类号: | G06V10/774;G06T17/00 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 王琪 |
地址: | 430073 *** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 styleclip ddfa 文本 调控 三维 生成 方法 | ||
1.一种基于StyleCLIP和3DDFA的文本调控三维人脸模型生成方法,其特征在于,包括以下步骤:
步骤S1,基于图像编辑网络StyleCLIP及三维重建网络3DDFA搭建组合网络;
步骤S2,获取输入需要的原始图像和目标文本;
步骤S3,将原始图像及目标文本输入组合网络,依据偏差损失
步骤S4,使用训练好的参数
2.根据权利要求1所述的一种基于深度学习算法的文本调控三维人脸模型生成方法,其特征在于:步骤S1中所述组合网络中包含一个预训练图像编码网络e4e,一个基于StyleGAN2的预训练图像生成网络G,一个多模态预训练网络CLIP,一个预训练三维重建网络3DDFA及一个预训练识别网络ArcFace。
3.根据权利要求2所述的一种基于深度学习算法的文本调控三维人脸模型生成方法,其特征在于:所述图像编码网络e4e及图像生成网络G均基于人脸数据集FFHQ进行训练。
4.根据权利要求2所述的一种基于深度学习算法的文本调控三维人脸模型生成方法,其特征在于:步骤S3中所述偏差损失
其中
其中
其中
其中,
5.根据权利要求4所述的一种基于深度学习算法的文本调控三维人脸模型生成方法,其特征在于:图文匹配损失的具体获取过程如下;
使用图像编码网络e4e将原始图像转译为StyleGAN的输入形式,即依次输入StyleGAN生成器每一层的隐编码,首先将原始图像输入e4e编码网络,生成1×1×512×18的原始图像隐编码
将隐编码输入生成器G后输出生成图像,把生成图像与目标文本输入CLIP模型,CLIP模型将目标文本和生成图像分别输入进两个编码器生成维度相同的两组特征向量,由于特征向量属于两组不同模态的特征空间,因此以余弦相似度来衡量图像与文本之间的相似度,即图文相似度
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉纺织大学,未经武汉纺织大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210710650.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种桩腿旋转齿环锁定机构
- 下一篇:一种齿轮齿条升降式桩腿锁定机构