[发明专利]说话视频生成方法及装置有效
申请号: | 202110532690.5 | 申请日: | 2021-05-14 |
公开(公告)号: | CN113449590B | 公开(公告)日: | 2022-10-28 |
发明(设计)人: | 张智勐;李林橙;丁彧;范长杰;胡志鹏 | 申请(专利权)人: | 网易(杭州)网络有限公司 |
主分类号: | G06V40/16 | 分类号: | G06V40/16;G06V20/40;G06V40/20;G06V10/80;G06V10/82;G06N3/04;G06N3/08;G06T9/00;G06T17/00;G10L19/16 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 钟扬飞 |
地址: | 310052 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 说话 视频 生成 方法 装置 | ||
本发明提供了一种说话视频生成方法及装置。通过基于待生成的说话视频对应的语音帧序列以及参考图像,确定语音帧序列中每个语音帧对应的运动参数;基于参考图像、预设人脸模型、以及每个语音帧对应的运动参数,确定每个语音帧对应的稠密运动场;基于参考图像和每个语音帧对应的稠密运动场,生成待生成的说话视频中与每个语音帧对应的帧图像。以此可以实现通过预测稠密运动场来生成说话视频图像,提升了抗干扰能力,精度更高。
技术领域
本发明涉及计算机技术领域,尤其是涉及一种说话视频生成方法及装置。
背景技术
基于单张图像输入的说话人脸视频合成技术的发展时间并不长,但其可广泛应用于虚拟助手、远程会议、电子游戏等多个领域。因为其广泛的应用价值,近年来被越来越多的学者关注。早期的技术方案简单的使用深度学习技术,利用深度图像生成网络直接从输入的人脸图像和语音合成说话人脸视频,这些网络往往都是端到端的结构。
近年来的技术方案将端到端的深度图像生成网络拆成两个主要模块,第一个模块为人脸关键点合成模块,这些方案一般使用人脸关键点的主成分系数或者关键点的位置偏移来表示嘴唇运动、面部表情和头部运动。第二个模块为人脸视频帧合成模块,该模块以人脸关键点为输入,利用深度图像生成网络合成说话人脸视频。
但是,使用人脸关键点表示表情和头部运动人脸关键点太稀疏了,会丢失掉很多表情的细节,容易受到噪声干扰。
发明内容
本发明的目的在于提供一种说话视频生成方法及装置,以缓解了现有技术中存在的容易受到噪声干扰的技术问题。
第一方面,本发明提供一种说话视频生成方法,包括:
基于待生成的说话视频对应的语音帧序列以及参考图像,确定语音帧序列中每个语音帧对应的运动参数;
基于参考图像、预设人脸模型、以及每个语音帧对应的运动参数,确定每个语音帧对应的稠密运动场;
基于参考图像和每个语音帧对应的稠密运动场,生成待生成的说话视频中与每个语音帧对应的帧图像。
在可选的实施方式中,基于待生成的说话视频对应的语音帧序列以及参考图像,确定语音帧序列中每个语音帧对应的运动参数,包括:
基于预先训练的人脸识别模型对参考图像进行人脸识别,得到人脸特征;
基于预先训练的语音特征提取器对待生成的说话视频对应的语音帧序列中的每个语音帧进行特征提取,得到每个语音帧对应的语音特征;
将每个语音帧对应的语音特征与人脸特征进行融合,得到每个语音帧对应的融合特征;
基于每个语音帧对应的融合特征,确定每个语音帧对应的运动参数。
在可选的实施方式中,将每个语音帧对应的语音特征与人脸特征进行融合,得到每个语音帧对应的融合特征,包括:
基于预先训练的全连接网络以及人脸特征,确定自适应实例归一化的参数;
将每个语音帧对应的语音特征与自适应实例归一化的参数进行融合,得到每个语音帧对应的融合特征。
在可选的实施方式中,运动参数包括嘴唇运动参数、表情运动参数以及头部运动参数;基于每个语音帧对应的融合特征,确定每个语音帧对应的运动参数,包括:
基于每个语音帧对应的融合特征和预先训练的运动参数识别模型中的嘴唇运动分支,确定每个语音帧对应的嘴唇运动参数;
基于每个语音帧对应的融合特征和预先训练的运动参数识别模型中的长时依赖解码器和表情运动分支,确定每个语音帧对应的表情运动参数;
基于每个语音帧对应的融合特征和预先训练的运动参数识别模型中的长时依赖解码器和头部运动分支,确定每个语音帧对应的头部运动参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网易(杭州)网络有限公司,未经网易(杭州)网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110532690.5/2.html,转载请声明来源钻瓜专利网。