[发明专利]一种数字人生成方法、装置、电子设备及存储介质在审
申请号: | 202111165602.9 | 申请日: | 2021-09-30 |
公开(公告)号: | CN113868469A | 公开(公告)日: | 2021-12-31 |
发明(设计)人: | 王鑫宇;刘炫鹏;杨国基;常向月;刘云峰 | 申请(专利权)人: | 深圳追一科技有限公司 |
主分类号: | G06F16/783 | 分类号: | G06F16/783;G06K9/00;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 深圳智汇远见知识产权代理有限公司 44481 | 代理人: | 刘洁 |
地址: | 518057 广东省深圳市南山区粤海街道*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数字 人生 成方 装置 电子设备 存储 介质 | ||
本发明涉及一种数字人生成方法、装置、电子设备及存储介质,该数字人生成方法可以包括:获取包含第一对象的第一视频;在第一视频中提取第一音频帧和与第一音频帧对应的第一视频帧,在第一视频帧提取去除目标局部区域的第一剩余人脸图片;基于第一音频帧和预设平均人脸模型生成第一对象的目标局部区域内人脸关键点的第一关键点坐标;在预设平均人脸模型中提取与第一音频帧对应的第一全连接层参数,并基于第一全连接层参数确定预设数字人生成模型的第一模型参数;基于第一关键点坐标、第一剩余人脸图片和模型参数为第一模型参数的预设数字人生成模型,生成数字人图片。本发明实施例可以实现生成数字人图片的过程更加快速。
技术领域
本申请涉及计算机技术领域,尤其涉及一种数字人生成方法、装置、电子设备及存储介质。
背景技术
虚拟数字人,是存在于数字世界的“人”,是通过对动作捕捉、三维建模、语音合成等技术,在数字世界高度还原真实人类,再展示出来的立体“人”。
若数字人视频生成技术需要实现实时交互,至少需要满足两点,生成效果好和推理速度快;效果好是必要的前提,速度快是商业的需要。
目前,生成数字人图片的方案,一般是对三维数据进行处理,生成数字人图片的速度比较慢。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种数字人生成方法、装置、电子设备及存储介质。
第一方面,本申请提供了一种数字人生成方法,包括:
获取包含第一对象的第一视频;
在所述第一视频中提取第一音频帧和与所述第一音频帧对应的第一视频帧,在所述第一视频帧提取去除目标局部区域的第一剩余人脸图片;
基于所述第一音频帧和预设平均人脸模型生成所述第一对象的所述目标局部区域内人脸关键点的第一关键点坐标;
在所述预设平均人脸模型中提取与所述第一音频帧对应的第一全连接层参数,并基于所述第一全连接层参数确定预设数字人生成模型的第一模型参数;
基于所述第一关键点坐标、所述第一剩余人脸图片和模型参数为所述第一模型参数的所述预设数字人生成模型,生成数字人图片。
可选地,基于所述第一全连接层参数确定预设数字人生成模型的第一模型参数,包括:
将所述第一全连接层参数进行反卷积处理,得到第一中间参数;
获取所述预设数字人生成模型的第二模型参数,所述第二模型参数为所述预设数字人生成模型训练完毕后确定的模型参数;
将所述第一中间参数与所述第二模型参数组合,得到所述第一模型参数。
可选地,将所述第一中间参数与所述第二模型参数组合,得到所述第一模型参数,包括:
将所述中间参数分别与所述预设数字人生成模型的编码层对应的第二模型参数、所述预设数字人生成模型的隐藏层对应的第二模型参数及所述预设数字人生成模型的解码层对应的第二模型参数进行合并,得到所述第一模型参数。
可选地,所述预设平均人脸模型的训练方法包括:
在包含所述第一对象的第二视频中提取多个第二音频帧和与所述第二音频帧对应的第二视频帧;
将所述第二音频帧输入所述预设平均人脸模型,得到与所述第二音频帧对应的第二视频帧中第二人脸关键点的预测坐标值;
在所述第二视频帧中提取第二人脸关键点的标签坐标值;
基于所述预测坐标值和所述标签坐标值计算第一损失值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳追一科技有限公司,未经深圳追一科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111165602.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种鞋底自动选位、纠偏和夹取机械臂
- 下一篇:支撑装置及电子系统