[发明专利]基于语音驱动数字人模型的视频生成方法及系统有效
申请号: | 202310018537.X | 申请日: | 2023-01-06 |
公开(公告)号: | CN115914505B | 公开(公告)日: | 2023-07-14 |
发明(设计)人: | 刘云飞;李昱;周昌印;余飞 | 申请(专利权)人: | 粤港澳大湾区数字经济研究院(福田);杭州盖视科技有限公司 |
主分类号: | H04N5/265 | 分类号: | H04N5/265;G06V40/16;G06V10/82;G06N3/08 |
代理公司: | 深圳市君胜知识产权代理事务所(普通合伙) 44268 | 代理人: | 温宏梅 |
地址: | 518045 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语音 驱动 数字 模型 视频 生成 方法 系统 | ||
1.一种基于语音驱动数字人模型的视频生成方法,其特征在于,所述方法包括:
获取驱动对象的驱动语音、所述驱动对象的权限验证信息以及所述驱动对象对应的被驱动对象;
当所述驱动对象的权限验证信息满足所述被驱动对象的权限验证条件时,获取所述被驱动对象对应的数字人模型和参考图像;
根据所述数字人模型获取所述被驱动对象对应的面部特征,根据所述驱动语音和所述面部特征获取多组人像参数,根据所述人像参数和所述面部特征生成多个人像表征向量,其中,一组所述人像参数与所述驱动语音的一个时刻对应,一个所述人像表征向量与一组所述人像参数对应;
获取各所述人像表征向量对应的时序位置编码,根据所述参考图像、各所述人像表征向量以及各所述时序位置编码,通过已训练的神经网络生成器分别生成各所述人像表征向量对应的一帧被驱动图像,并根据所述被驱动图像生成被驱动视频,其中,所述被驱动视频中所述被驱动对象的嘴部动作与所述驱动语音匹配。
2.根据权利要求1所述的基于语音驱动数字人模型的视频生成方法,其特征在于,所述根据所述驱动语音和所述面部特征获取多组人像参数,根据所述人像参数和所述面部特征生成多个人像表征向量,包括:
根据所述驱动语音提取获得多个时刻对应的语音信息;
根据所述语音信息和所述面部特征获取多个参数估计数据,其中,一个参数估计数据包括所述面部特征和一个时刻对应的语音信息;
分别将各所述参数估计数据输入已训练的语音驱动数字化身参数估计神经网络以分别获取各所述参数估计数据对应的一组人像参数;
根据所述人像参数和所述面部特征,分别生成各组所述人像参数对应的人像表征向量。
3.根据权利要求2所述的基于语音驱动数字人模型的视频生成方法,其特征在于,所述人像参数包括人脸关键点参数、肩部关键点参数和头部姿态。
4.根据权利要求2或3所述的基于语音驱动数字人模型的视频生成方法,其特征在于,所述语音驱动数字化身参数估计神经网络根据如下步骤进行训练:
将参数估计训练数据中的训练参数估计数据输入所述语音驱动数字化身参数估计神经网络,通过所述语音驱动数字化身参数估计神经网络生成所述训练参数估计数据对应的训练人像参数,其中,所述参数估计训练数据包括多组参数估计训练信息组,每一组参数估计训练信息组包括训练参数估计数据和标注人像参数;
根据所述训练人像参数和所述标注人像参数,对所述语音驱动数字化身参数估计神经网络的网络参数进行调整,并继续执行所述将参数估计训练数据中的训练参数估计数据输入所述语音驱动数字化身参数估计神经网络的步骤,直至满足第一预设训练条件,以得到已训练的语音驱动数字化身参数估计神经网络。
5.根据权利要求3所述的基于语音驱动数字人模型的视频生成方法,其特征在于,所述根据所述人像参数和所述面部特征,分别生成各组所述人像参数对应的人像表征向量,包括:
根据所有所述人脸关键点参数和所述面部特征获取多个待优化数据,其中,一个所述待优化数据包括所述面部特征和一个所述人脸关键点参数;
分别将各所述待优化数据输入已训练的三维关键点调优神经网络以分别获取各所述待优化数据对应的人脸网格点优化数据;
根据各组对应的人脸网格点优化数据、肩部关键点参数和头部姿态分别获取各所述人像表征向量。
6.根据权利要求5所述的基于语音驱动数字人模型的视频生成方法,其特征在于,任意一个人像表征向量根据如下步骤获得:
获取一组对应的人脸网格点优化数据、肩部关键点参数和头部姿态;
根据预设的投影函数对第一乘积进行投影获得面部二维图像表征向量,其中,所述第一乘积由所述人脸网格点优化数据和所述头部姿态点乘获得;
根据所述投影函数对所述肩部关键点进行投影获得肩部二维图像表征向量;
将所述面部二维图像表征向量和所述肩部二维图像表征向量相加获得所述人像表征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于粤港澳大湾区数字经济研究院(福田);杭州盖视科技有限公司,未经粤港澳大湾区数字经济研究院(福田);杭州盖视科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310018537.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种车轮转角控制方法、装置及电子设备
- 下一篇:高速线材、棒材均温段导槽