[发明专利]基于语音驱动的人脸动作合成方法、电子设备及存储介质有效

申请号：	202110712277.7	申请日：	2021-06-25
公开（公告）号：	CN113408449B	公开（公告）日：	2022-12-06
发明（设计）人：	彭飞;马世奎	申请（专利权）人：	达闼科技（北京）有限公司
主分类号：	G06V40/16	分类号：	G06V40/16;G06V40/20;G06V10/74;G06V10/774;G06V10/764;G06V10/82;G06N3/04;G10L15/08;G10L15/16
代理公司：	北京智晨知识产权代理有限公司 11584	代理人：	张婧
地址：	100102 北京市房***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于语音驱动动作合成方法电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例涉及计算机信息技术领域，公开了一种基于语音驱动的人脸动作合成方法、电子设备及存储介质。通过对待识别人脸动作的语音信号进行处理，得到所述语音信号对应的音频向量；将所述音频向量输入参数识别模型进行处理，输出所述待识别人脸动作对应的人脸肌肉运动参数；通过所述待识别人脸动作的人脸肌肉运动参数，控制人脸模型中按人脸肌肉分布划分的多个弹性体上的角点运动，得到待识别人脸动作结果。本方案可以普遍适用于包含多种角点数量的人物模型，且输出的人脸动作丰富，表情效果自然。

技术领域

本发明实施例涉及计算机信息技术领域，特别涉及一种基于语音驱动的人脸动作合成方法、电子设备及存储介质。

背景技术

无论是现实中的机器人还是计算机里面的虚拟人物或模型，如何通过音频实现虚拟人物或模型自动对口型，这都是业界的一个难题，即使经过多年的研究和发展，这个问题依然困扰着相关从业人员。

目前，基于语音驱动虚拟人物口型的方式有很多，最常用的是VOCA(VoiceOperated Character Animation)模型。VOCA模型的训练的目标数据是利用三维视觉特效合成软件如FALME虚拟出的人物模型的角点位置，而由于FLAME所合成的人物模型的角点数量固定，很难将目标数据迁移到自定义的虚拟人物中，从而不能达到一次训练，多场景应用的效果。此外，voca模型通常只对口型运动进行建模，人脸的其他很多地方是没有运动的，譬如，抬眉、眨眼等，这会导致输出的人脸动作效果僵硬。

发明内容

本发明实施方式的目的在于提供一种基于语音驱动的人脸动作合成方法、电子设备及存储介质，可以普遍适用于包含多种角点数量的人物模型，且输出的人脸动作丰富，表情效果自然。

为解决上述技术问题，本发明的实施方式提供了一种基于语音驱动的人脸动作合成方法，包括：

对待识别人脸动作的语音信号进行处理，得到所述语音信号对应的音频向量；

将所述音频向量输入参数识别模型进行处理，输出所述待识别人脸动作对应的人脸肌肉运动参数；

其中，所述参数识别模型是基于样本音频向量及预先确定的对应于各样本音频向量的人脸肌肉运动参数标签进行训练后得到的，所述参数识别模型训练时的损失函数基于人脸肌肉运动损失构成；

通过所述待识别人脸动作的人脸肌肉运动参数，控制人脸模型中按人脸肌肉分布划分的多个弹性体上的角点运动，得到待识别人脸动作结果。

本发明的实施方式还提供了一种电子设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的基于语音驱动的人脸动作合成方法。

本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的基于语音驱动的人脸动作合成方法。