[发明专利]唇形模型的训练方法和装置及语音动画合成方法和装置在审
申请号: | 202110591866.4 | 申请日: | 2021-05-28 |
公开(公告)号: | CN113314094A | 公开(公告)日: | 2021-08-27 |
发明(设计)人: | 王鹏睿 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
主分类号: | G10L13/027 | 分类号: | G10L13/027;G10L13/08;G10L21/10 |
代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 王兆赓;苏银虹 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 训练 方法 装置 语音 动画 合成 | ||
1.一种唇形模型的训练方法,其特征在于,所述唇形模型包括音素唇形预测网络和说话人线性映射网络,所述训练方法包括:
获取多个说话人的音视频数据样本;
从所述多个说话人的音视频数据样本获取音素序列和真实唇形系数;
将所述音素序列输入所述音素唇形预测网络,得到预测的隐空间唇形系数;
将所述预测的隐空间唇形系数输入对应说话人的说话人线性映射网络,得到所述对应说话人的预测的唇形系数,其中,所述多个说话人中的每个说话人对应一个说话人线性映射网络;
根据所述预测的唇形系数和所述真实唇形系数确定所述唇形模型的损失函数的值;
通过根据所述损失函数的值调整所述音素唇形预测网络和所述对应说话人的说话人线性映射网络的参数,对所述唇形模型进行训练。
2.如权利要求1所述的训练方法,其特征在于,对于所述多个说话人中的每个说话人,所述音素序列包括所述音视频数据中的多个音素帧,所述真实唇形系数包括所述音视频数据中的多个视频帧对应的唇形系数,所述音视频数据中的音素帧数量大于或等于视频帧数量,每个视频帧均存在一个时间上相对应的音素帧。
3.如权利要求2所述的训练方法,其特征在于,所述将所述音素序列输入所述音素唇形预测网络,得到预测的隐空间唇形系数,包括:
将与当前视频帧相对应的音素帧及其周围至少一个音素帧输入所述音素唇形预测网络,得到当前视频帧的预测的隐空间唇形系数;或
将与当前视频帧的每个参考视频帧相对应的音素帧及其周围至少一个音素帧输入所述音素唇形预测网络,得到每个参考视频帧的预估隐空间唇形系数和预测权重,根据所述预测权重计算所有参考视频帧的所述预估隐空间唇形系数的加权平均值,作为当前视频帧的预测的隐空间唇形系数,其中,当前视频帧的参考视频帧包括当前视频帧及其周围至少一个视频帧。
4.如权利要求1所述的训练方法,其特征在于,
所述唇形模型的损失函数是所述预测的唇形系数与所述真实唇形系数的均方误差;或
所述唇形模型的损失函数是所述预测的唇形系数对应的三维空间顶点与所述真实唇形系数对应的三维空间顶点的加权均方误差,
其中,唇部区域的三维空间顶点的均方误差的权重大于或等于其他区域的三维空间顶点的均方误差的权重。
5.一种语音动画合成方法,其特征在于,所述语音动画合成方法是基于唇形模型实现的,所述唇形模型包括音素唇形预测网络和说话人线性映射网络,所述语音动画合成方法包括:
获取说话人信息、音素序列以及与所述音素序列相对应的音频数据;
将所述音素序列输入所述音素唇形预测网络,得到预测的隐空间唇形系数;
将所述预测的隐空间唇形系数输入与所述说话人信息相对应的所述说话人线性映射网络,得到预测的唇形系数;
根据所述预测的唇形系数生成视频数据;
将所述视频数据和所述音频数据合成语音动画。
6.一种唇形模型的训练装置,其特征在于,所述唇形模型包括音素唇形预测网络和说话人线性映射网络,所述训练装置包括:
采样单元,被配置为:获取多个说话人的音视频数据样本;
分析单元,被配置为:从所述多个说话人的音视频数据样本获取音素序列和真实唇形系数;
第一预测单元,被配置为:将所述音素序列输入所述音素唇形预测网络,得到预测的隐空间唇形系数;
第二预测单元,被配置为:将所述预测的隐空间唇形系数输入对应说话人的说话人线性映射网络,得到所述对应说话人的预测的唇形系数,其中,所述多个说话人中的每个说话人对应一个说话人线性映射网络;
计算单元,被配置为:根据所述预测的唇形系数和所述真实唇形系数确定所述唇形模型的损失函数的值;
调参单元,被配置为:通过根据所述损失函数的值调整所述音素唇形预测网络和所述对应说话人的说话人线性映射网络的参数,对所述唇形模型进行训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110591866.4/1.html,转载请声明来源钻瓜专利网。