[发明专利]一种视频生成方法、装置、服务器及存储介质在审
申请号: | 202111109871.3 | 申请日: | 2021-09-22 |
公开(公告)号: | CN113901894A | 公开(公告)日: | 2022-01-07 |
发明(设计)人: | 杨跃;董治;雷兆恒;梅立锋 | 申请(专利权)人: | 腾讯音乐娱乐科技(深圳)有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06T17/00;G10L25/57 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强;杜维 |
地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 视频 生成 方法 装置 服务器 存储 介质 | ||
1.一种视频生成方法,其特征在于,所述方法包括:
获取人声音频数据,并获取目标对象的人脸图像;
根据所述人声音频数据生成模拟人脸表情参数,并根据所述人脸图像生成所述目标对象的三维人脸参数;
根据所述模拟人脸表情参数和所述三维人脸参数生成所述目标对象的初始动态人脸视频;
根据所述人声音频数据对所述初始动态人脸视频中的人脸唇形进行修正,得到目标动态人脸视频;所述目标动态人脸视频中的人脸唇形与所述人声音频数据中的人声内容相对应。
2.根据权利要求1所述的方法,其特征在于,所述根据所述人声音频数据生成模拟人脸表情参数,包括:
将所述人声音频数据输入表情参数提取模型,基于所述表情参数提取模型对所述人声音频数据进行特征转换,得到所述人声音频数据的语音特征参数;
基于所述表情参数提取模型对所述语音特征参数进行特征迁移,得到所述人声音频数据的目标音频特征;
根据所述目标音频特征进行表情参数映射,得到所述模拟人脸表情参数。
3.根据权利要求1所述的方法,其特征在于,所述根据所述人脸图像生成所述目标对象的三维人脸参数,包括:
将所述人脸图像输入三维人脸构建模型,以使所述三维人脸构建模型提取所述人脸图像中所述目标对象的人脸关键点,并使用所述人脸关键点对所述目标对象进行人脸重构,得到所述目标对象的三维人脸参数。
4.根据权利要求1所述的方法,其特征在于,所述三维人脸参数包含所述目标对象的初始人脸表情参数和人脸形态参数;所述人声音频数据具有多帧音频数据,一帧音频数据对应一组所述模拟人脸表情参数;
所述根据所述模拟人脸表情参数和所述三维人脸参数生成所述目标对象的初始动态人脸视频,包括:
将所述三维人脸参数中的所述初始人脸表情参数分别替换为每帧音频数据对应的所述模拟人脸表情参数,得到针对所述目标对象的所述每帧音频数据分别对应的目标人脸参数;
根据所述每帧音频数据分别对应的目标人脸参数,生成所述每帧音频数据分别对应的初始人脸图像;
根据所述每帧音频数据分别对应的初始人脸图像,生成所述目标对象的初始动态人脸视频。
5.根据权利要求4所述的方法,其特征在于,所述根据所述每帧音频数据分别对应的初始人脸图像,生成所述目标对象的初始动态人脸视频,包括:
对所述每帧音频数据分别对应的初始人脸图像进行图像渲染,得到所述每帧音频数据分别对应的渲染人脸图像;
根据所述每帧音频数据分别对应的渲染人脸图像,生成所述目标对象的初始动态人脸视频。
6.根据权利要求4所述的方法,其特征在于,所述根据所述人声音频数据对所述初始动态人脸视频中的人脸唇形进行修正,得到目标动态人脸视频,包括:
将所述人声音频数据和所述初始动态人脸视频输入唇形修正模型;
基于所述唇形修正模型提取所述每帧音频数据分别对应的音频数据特征;
根据所述每帧音频数据分别对应的音频数据特征,对所述初始动态人脸视频中所述每帧音频数据分别对应的初始人脸图像中的唇形进行修正,得到所述每帧音频数据分别对应的目标人脸图像;
根据所述每帧音频数据分别对应的目标人脸图像生成进行人脸唇形修正后的所述目标动态人脸视频。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯音乐娱乐科技(深圳)有限公司,未经腾讯音乐娱乐科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111109871.3/1.html,转载请声明来源钻瓜专利网。