[发明专利]基于语音驱动的人脸动作合成方法、电子设备及存储介质有效
申请号: | 202110712277.7 | 申请日: | 2021-06-25 |
公开(公告)号: | CN113408449B | 公开(公告)日: | 2022-12-06 |
发明(设计)人: | 彭飞;马世奎 | 申请(专利权)人: | 达闼科技(北京)有限公司 |
主分类号: | G06V40/16 | 分类号: | G06V40/16;G06V40/20;G06V10/74;G06V10/774;G06V10/764;G06V10/82;G06N3/04;G10L15/08;G10L15/16 |
代理公司: | 北京智晨知识产权代理有限公司 11584 | 代理人: | 张婧 |
地址: | 100102 北京市房*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语音 驱动 动作 合成 方法 电子设备 存储 介质 | ||
1.一种基于语音驱动的人脸动作合成方法,其特征在于,包括:
对待识别人脸动作的语音信号进行处理,得到所述语音信号对应的音频向量;
将所述音频向量输入参数识别模型进行处理,输出所述待识别人脸动作对应的人脸肌肉运动参数;
其中,所述参数识别模型是基于样本音频向量及预先确定的对应于各样本音频向量的人脸肌肉运动参数标签进行训练后得到的,所述参数识别模型训练时的损失函数基于人脸肌肉运动损失构成;
通过所述待识别人脸动作的人脸肌肉运动参数,控制人脸模型中按人脸肌肉分布划分的多个弹性体上的角点运动,得到待识别人脸动作结果;
所述参数识别模型为神经网络模型,所述神经网络模型包括三层卷积层和两层全连接层;所述将所述音频向量输入参数识别模型进行处理,输出所述待识别人脸动作对应的人脸肌肉运动参数,包括:
将所述音频向量依次经所述三层卷积层进行样本空间特征提取,得到卷积层特征数据;
将所述卷积层特征数据依次经所述两层全连接层进行分类后,输出所述待识别人脸动作对应的人脸肌肉运动参数;
所述对待识别人脸动作的语音信号进行处理,得到所述语音信号对应的音频向量包括:
对待识别人脸动作的语音信号采用深度语音模型进行编码,将语音信号帧中每32帧编码成一个具有29个维度的向量作为一个所述音频向量;
所述将所述音频向量输入参数识别模型进行处理,输出所述待识别人脸动作对应的人脸肌肉运动参数包括:
从所述音频向量中每次提取n个音频向量,经第一层卷积层进行处理得到第一卷积特征数据;所述第一层卷积层包含32个卷积核且卷积核大小为3;
将所述第一卷积特征数据经第一层池化层进行处理得到第一池化特征数据;所述第一层池化层大小为2;
将所述第一池化特征数据经第二层卷积层进行处理得到第二卷积特征数据;所述第二层卷积层包含64个卷积核且卷积核大小为3;
将所述第二卷积特征数据经第二层池化层进行处理得到第二池化特征数据;所述第二层池化层大小为2;
将所述第二池化特征数据经第三层卷积层进行处理得到第三卷积特征数据;所述第三层卷积层包含128个卷积核且卷积核大小为4;
将所述第三卷积特征数据依次经所述两层全连接层进行分类后,输出n个分别具有28个维度的向量,且每个向量分别为一组所述待识别人脸动作对应的人脸肌肉运动参数。
2.根据权利要求1所述的方法,其特征在于,所述神经网络模型还包两层池化层;
所述将所述音频向量依次经所述三层卷积层进行样本空间特征提取,得到卷积层特征数据,包括:
在将所述音频向量依次经前两层卷积层处理时,每经一个所述卷积层处理后,将处理后的音频向量经一个所述池化层处理,并将经所述池化层处理后的音频向量输入到下一层卷积层进行处理。
3.根据权利要求1所述的方法,其特征在于,所述人脸肌肉运动参数包括:人脸肌肉的运动位移参数和人脸肌肉的运动速度参数,其中,所述运动速度参数为相邻两组运动位移参数的参数增量;所述参数识别模型训练时的损失函数基于人脸肌肉的运动位移损失和运动速度损失构成;
其中,所述参数识别模型训练时的损失函数ETotal=a1Ep+a2 EV,其中,Ep为运动位移损失,EV为运动速度损失,aj(j=1,2)是对应损失项的权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于达闼科技(北京)有限公司,未经达闼科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110712277.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于模糊聚类的交通网络健康画像方法及系统
- 下一篇:回转上料装置