[发明专利]数字人的生成方法、装置、电子设备及存储介质在审
申请号: | 202211610587.9 | 申请日: | 2022-12-12 |
公开(公告)号: | CN116188641A | 公开(公告)日: | 2023-05-30 |
发明(设计)人: | 王健;齐镗泉 | 申请(专利权)人: | 深圳万兴软件有限公司 |
主分类号: | G06T13/40 | 分类号: | G06T13/40;G06N3/09;G06T3/40 |
代理公司: | 深圳尚业知识产权代理事务所(普通合伙) 44503 | 代理人: | 文蓉 |
地址: | 518000 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数字 生成 方法 装置 电子设备 存储 介质 | ||
本申请实施例公开一种数字人的生成方法、装置、电子设备及存储介质,其中,数字人的生成方法,包括:获得视频和音频;将视频和音频输入人脸生成模型,得到连续的多个虚拟数字人人脸图像帧,多个虚拟数字人人脸图像帧包括与音频匹配的嘴型,人脸生成模型是根据人脸生成模型输出的虚拟数字人人脸图像和目标图像之间的损失预先训练得到的,目标图像由虚拟数字人人脸图像经过图像增强处理得到;根据多个虚拟数字人人脸图像帧和音频,得到虚拟数字人有声视频。本申请的实施例,在不增加推理耗时的情况下,通过图像增强并计算图像的清晰化损失对人脸生成模型进行监督学习,使得生成的虚拟数字人影响具有更好的视觉效果,提升虚拟数字人的视觉质量。
技术领域
本申请涉及人工智能技术领域,具体而言,涉及一种数字人的生成方法、装置、电子设备及存储介质。
背景技术
目前,虚拟数字人已经被广泛应用到多个领域,例如银行的虚拟数字人接待、虚拟主播、电视台的虚拟主持人、某品牌的虚拟形象等。在实际应用中虚拟数字人生成驱动时往往存在生成的嘴部区域不清晰的问题。相关技术中,针对生成的虚拟数字人嘴部不清晰,主要采用两种方法,其一是通过在虚拟数字人生成过程中引入3D人脸建模的技术,通过面部贴图来提高嘴部清晰度。其二是通过引入3D人体建模的方式,将整个虚拟数字人建为一个3D模型,然后采用语音驱动3D模型。存在以下技术缺点:
在虚拟数字人生成过程中引入3D人脸建模的技术虽然可以改善面部生成效果,但是由于3D人脸建模技术相较一些3D生成技术更为复杂,使得虚拟人的生成耗时长,效率低;采用3D技术重建整个虚拟数字人的方式,虽然可以实现超写实效果,但是,人体建模需要大量的专业知识积累,如果通过模型完成人体重建则需要消耗大量的计算资源,成本较高。
发明内容
针对上述现有技术中存在的问题,本申请实施例提供了一种数字人的生成方法、装置、电子设备及存储介质,可以在不增加推理耗时的情况下,通过图像增强并计算图像的清晰化损失对人脸生成模型进行监督学习,使人脸生成模型生成的虚拟数字人人脸图像更加清晰,使最终得到的可驱动的虚拟数字人影响具有更好的视觉效果,提升虚拟数字人的视觉质量。
第一方面,本申请实施例提供了一种数字人的生成方法,包括:
获得视频和音频;
将所述视频和音频输入人脸生成模型,得到连续的多个虚拟数字人人脸图像帧,其中,所述多个虚拟数字人人脸图像帧包括与所述音频匹配的嘴型,所述人脸生成模型是根据所述人脸生成模型输出的虚拟数字人人脸图像和目标图像之间的清晰化损失预先训练得到的,所述目标图像由所述虚拟数字人人脸图像经过图像增强处理得到;
根据所述多个虚拟数字人人脸图像帧和所述音频,得到虚拟数字人有声视频。
进一步地,所述人脸生成模型的训练过程,包括:
将训练样本输入初始人脸生成模型,得到所述初始人脸生成模型的输出图像;
对所述输出图像进行图像增强处理,得到增强图像;
计算所述输出图像和所述增强图像之间的损失,并根据所述损失对所述初始人脸生成模型进行训练,得到所述人脸生成模型。
进一步地,所述对所述输出图像进行图像增强处理,得到增强图像,包括:
提取所述输出图像的低分辨率特征;
对所述低分率特征进行非线性映射,得到高分辨率特征;
对所述高分辨率特征进行解码处理,得到所述增强图像。
进一步地,所述对所述输出图像进行图像增强处理,得到增强图像,包括:
将所述输出图像输入超分辨率图像生成模型,得到所述增强图像。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳万兴软件有限公司,未经深圳万兴软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211610587.9/2.html,转载请声明来源钻瓜专利网。