[发明专利]数字人视频生成方法、装置、电子设备和存储介质在审

申请号：	202111173209.4	申请日：	2021-09-30
公开（公告）号：	CN113886644A	公开（公告）日：	2022-01-04
发明（设计）人：	王鑫宇;刘炫鹏;刘云峰	申请（专利权）人：	深圳追一科技有限公司
主分类号：	G06F16/783	分类号：	G06F16/783;G06F16/78;G06K9/00;G06K9/62;G06N3/04;G06N3/08;G06N20/00
代理公司：	深圳智汇远见知识产权代理有限公司 44481	代理人：	刘洁
地址：	518057 广东省深圳市南山区粤海街道***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	数字视频生成方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开实施例公开了一种数字人视频生成方法、装置、电子设备和存储介质。上述方法包括：获取目标音频和目标人脸图像；针对上述目标音频中的音频帧，将该音频帧输入至预先训练的人脸关键点模型，得到与该音频帧相对应的人脸关键点；针对上述目标音频中的音频帧，基于与该音频帧相对应的人脸关键点，生成与该音频帧相对应的上述目标人脸图像的人脸素描图；针对上述目标音频中的音频帧，将与该音频帧相对应的上述目标人脸图像的人脸素描图输入至预先训练的图像生成模型，生成与该音频帧相对应的目标图像；基于所生成的目标图像，生成数字人视频。本公开实施例可以提高数字人生成效果。

技术领域

本公开涉及数字人视频生成技术领域，尤其是一种数字人视频生成方法、装置、电子设备和存储介质。

背景技术

数字人的生成技术日趋成熟。现有方案有基于pix2pix、pix2pixHD、video2videosynthesis的数字人生成方法。具体而言，目前出现了大量的数字人生成技术，例如基于pix2pix、pix2pixHD、Vid2Vid、few shot video2video、NERF、StyleGAN等数字人生成方法。

然而，现有这些方案中，若生成的人脸关键点不准确、生成素描图的效果比较差，则会导致最终生成的数字人图片的效果比较差。

发明内容

鉴于此，为解决如上部分或全部技术问题，本公开实施例提供一种数字人视频生成方法、装置、电子设备和存储介质。

第一方面，本公开实施例提供一种数字人视频生成方法，该方法包括：

获取目标音频和目标人脸图像；

针对上述目标音频中的音频帧，将该音频帧输入至预先训练的人脸关键点模型，得到与该音频帧相对应的人脸关键点，其中，上述人脸关键点模型用于表征音频帧与人脸关键点之间的对应关系；

针对上述目标音频中的音频帧，基于与该音频帧相对应的人脸关键点，生成与该音频帧相对应的上述目标人脸图像的人脸素描图；

针对上述目标音频中的音频帧，将与该音频帧相对应的上述目标人脸图像的人脸素描图输入至预先训练的图像生成模型，生成与该音频帧相对应的目标图像，其中，与该音频帧相对应的目标图像用于指示上述目标人脸图像指示的人员发出该音频帧指示的音频；

基于所生成的目标图像，生成数字人视频。

可选地，在本公开任一实施例的方法中，上述基于与该音频帧相对应的人脸关键点，生成与该音频帧相对应的上述目标人脸图像的人脸素描图，包括：

基于与该音频帧相对应的人脸关键点，生成上述目标人脸图像的人脸关键点；

基于所生成的人脸关键点和上述目标人脸图像的人脸轮廓线，生成与该音频帧相对应的上述目标人脸图像的人脸素描图。