[发明专利]基于语音驱动数字人模型的视频生成方法及系统有效

申请号：	202310018537.X	申请日：	2023-01-06
公开（公告）号：	CN115914505B	公开（公告）日：	2023-07-14
发明（设计）人：	刘云飞;李昱;周昌印;余飞	申请（专利权）人：	粤港澳大湾区数字经济研究院（福田）;杭州盖视科技有限公司
主分类号：	H04N5/265	分类号：	H04N5/265;G06V40/16;G06V10/82;G06N3/08
代理公司：	深圳市君胜知识产权代理事务所(普通合伙) 44268	代理人：	温宏梅
地址：	518045 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于语音驱动数字模型视频生成方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于语音驱动数字人模型的视频生成方法及系统，方法包括：获取驱动对象的驱动语音、权限验证信息及被驱动对象；权限验证信息满足被驱动对象的权限验证条件时获取被驱动对象的数字人模型和参考图像；根据数字人模型获取被驱动对象对应的面部特征，根据驱动语音和面部特征获取多组人像参数，根据人像参数和面部特征生成多个人像表征向量；获取各人像表征向量的时序位置编码，根据参考图像、各人像表征向量以及各时序位置编码，通过已训练的神经网络生成器生成各人像表征向量对应的一帧被驱动图像，并生成被驱动视频，被驱动视频中被驱动对象的嘴部动作与驱动语音匹配。本发明有利于提高语音驱动的视频的生成效果和展示效果。

技术领域

本发明涉及图像处理技术领域，尤其涉及的是一种基于语音驱动数字人模型的视频生成方法及系统。

背景技术

随着科学技术的发展，尤其是图像处理和视频处理技术的发展，用户对于图像处理和视频处理的要求也越来越高。例如，一种需求为由第一用户进行讲话，以驱动第二用户的脸进行同样的讲话，即生成第二用户进行同样讲话的视频。

现有技术中，通常拍摄第一用户和第二用户的讲话视频，然后对视频进行逐帧处理，对于视频中的每一帧图像，将第一用户和第二用户的图像中嘴部区域进行截取和替换。现有技术的问题在于，必须采集第一用户对应的视频，无法直接通过采集的语音实现视频生成，不利于提高视频生成的便利性。同时，直接对两个用户的图像（或视频）进行嘴部区域的替换，替换后的第二用户所对应的图像中的嘴部区域的图像实际仍是第一用户的嘴部区域的图像，实际上没有达到用第一用户的语音驱动第二用户进行同样讲话的目的，不利于提高语音驱动的视频的生成效果。并且，直接替换后生成的第二用户对应的视频中嘴部区域与脸部其它区域并不能很好的匹配，即不利于提高生成的视频的展示效果。

因此，现有技术还有待改进和发展。

发明内容

本发明的主要目的在于提供一种基于语音驱动数字人模型的视频生成方法及系统，旨在解决现有技术中只通过对两个用户的视频中每一帧图像中嘴部区域进行截取和替换的视频处理方案不利于提高视频生成的便利性，且不利于提高语音驱动的视频的生成效果和展示效果的问题。

为了实现上述目的，本发明第一方面提供一种基于语音驱动数字人模型的视频生成方法，其中，上述基于语音驱动数字人模型的视频生成方法包括：

获取驱动对象的驱动语音、上述驱动对象的权限验证信息以及上述驱动对象对应的被驱动对象；

当上述驱动对象的权限验证信息满足上述被驱动对象的权限验证条件时，获取上述被驱动对象对应的数字人模型和参考图像；

根据上述数字人模型获取上述被驱动对象对应的面部特征，根据上述驱动语音和上述面部特征获取多组人像参数，根据上述人像参数和上述面部特征生成多个人像表征向量，其中，一组上述人像参数与上述驱动语音的一个时刻对应，一个上述人像表征向量与一组上述人像参数对应；

获取各上述人像表征向量对应的时序位置编码，根据上述参考图像、各上述人像表征向量以及各上述时序位置编码，通过已训练的神经网络生成器分别生成各上述人像表征向量对应的一帧被驱动图像，并根据上述被驱动图像生成被驱动视频，其中，上述被驱动视频中上述被驱动对象的嘴部动作与上述驱动语音匹配。

可选的，上述根据上述驱动语音和上述面部特征获取多组人像参数，根据上述人像参数和上述面部特征生成多个人像表征向量，包括：

根据上述驱动语音提取获得多个时刻对应的语音信息；

根据上述语音信息和上述面部特征获取多个参数估计数据，其中，一个参数估计数据包括上述面部特征和一个时刻对应的语音信息；

分别将各上述参数估计数据输入已训练的语音驱动数字化身参数估计神经网络以分别获取各上述参数估计数据对应的一组人像参数；