[发明专利]一种语音驱动的人脸动作实时转移方法和系统在审

申请号：	202011027777.9	申请日：	2020-09-28
公开（公告）号：	CN112215926A	公开（公告）日：	2021-01-12
发明（设计）人：	不公告发明人	申请（专利权）人：	北京华严互娱科技有限公司
主分类号：	G06T13/20	分类号：	G06T13/20;G06T13/40
代理公司：	暂无信息	代理人：	暂无信息
地址：	100000 北京市丰台***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语音驱动动作实时转移方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种语音驱动的人脸动作实时转移方法和系统，其中方法包括：输入源角色的音频序列；估计所述音频序列中的每一帧的音频信号表征；根据所估计的每一音频帧的所述音频信号表征驱动一三维面部模型动作；获取目标视频帧；基于所驱动的所述三维面部模型，对所述目标视频帧图像上的人脸动作进行预测，得到人脸动作预测结果；将预测到的所述人脸动作预测结果合成到所述目标视频中的对应帧图像上，实现语音驱动的人脸动作实时转移。本发明大幅提高了所驱动的人脸动作的真实感，并且大幅降低了人脸驱动算法的复杂度，可有效确保驱动人脸动作的实时性。

技术领域

本发明涉及人脸动作驱动技术领域，具体涉及一种语音驱动的人脸动作实时转移方法和系统。

背景技术

语音驱动人脸动画是当下动画仿真技术领域的研究热点。语音驱动人脸动画的技术核心是通过外部输入的语音信息驱动人脸模型动画。时下比较热门的语音驱动人脸动画的技术主要通过建立语音信息与人脸动画视频的对应关系，将各个人脸动画视频存储到人脸动画素材库中，然后识别外部输入的语音信息，并根据语音信息与人脸动画视频的匹配关系，从人脸动画素材库中匹配到所识别的语音信息对应的人脸动画视频，最后直接调用该人脸动画视频显示给用户。该种方式无法实现语音驱动人脸动画的实时性。

另外，现有的一些语音驱动人脸动画的方法虽然一定程度上确保了人脸驱动的实时性，但由于算法较为复杂，实时性效果并不理想，而且所驱动的人脸逼真度较差，无法满足应用需求。

发明内容

本发明的目的在于提供一种语音驱动的人脸动作实时转移方法和系统，以解决上述技术问题。

为达此目的，本发明采用以下技术方案：

提供一种语音驱动的人脸动作实时转移方法，包括：

输入源角色的音频序列；

估计所述音频序列中的每一帧的音频信号表征；

根据所估计的每一音频帧的所述音频信号表征驱动一三维面部模型动作；

获取目标视频帧；

基于所驱动的所述三维面部模型，对所述目标视频帧图像上的人脸动作进行预测，得到人脸动作预测结果；

将预测到的所述人脸动作预测结果合成到所述目标视频中的对应帧图像上，实现语音驱动的人脸动作实时转移。

优选地，基于FacialSpeech语音识别框架估计所述音频序列中的每一帧的所述音频信号表征。