[发明专利]唇形模型的训练方法和装置及语音动画合成方法和装置在审
申请号: | 202110591866.4 | 申请日: | 2021-05-28 |
公开(公告)号: | CN113314094A | 公开(公告)日: | 2021-08-27 |
发明(设计)人: | 王鹏睿 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
主分类号: | G10L13/027 | 分类号: | G10L13/027;G10L13/08;G10L21/10 |
代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 王兆赓;苏银虹 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 训练 方法 装置 语音 动画 合成 | ||
本公开关于一种唇形模型的训练方法和装置及语音动画合成方法和装置,唇形模型包括音素唇形预测网络和说话人线性映射网络,训练方法包括:获取多个说话人的音视频数据样本;从多个说话人的音视频数据样本获取音素序列和真实唇形系数;将音素序列输入音素唇形预测网络,得到预测的隐空间唇形系数;将预测的隐空间唇形系数输入对应说话人的说话人线性映射网络,得到对应说话人的预测的唇形系数,其中,多个说话人中的每个说话人对应一个说话人线性映射网络;根据预测的唇形系数和真实唇形系数确定唇形模型的损失函数的值;通过根据损失函数的值调整音素唇形预测网络和对应说话人的说话人线性映射网络的参数,对唇形模型进行训练。
技术领域
本公开涉及语音动画技术领域,尤其涉及一种唇形模型的训练方法和装置、语音动画合成方法和装置、电子设备和存储介质。
背景技术
语音合成技术在新闻、有声小说、设备提示等自动播报场景中有着广泛的应用。然而纯粹的声音而没有相应的播报角色会降低播报的真实感以及交互感,因此语音动画合成技术起到了重要的作用。
一般语音动画合成技术都涉及唇形系数生成模型,用于通过语音或文本特征获得唇部动作相关系数,例如获得三维人脸形变模型(3DMM,3D morphable model)的表情系数,以便基于此系数生成主播播报动画。对于唇形系数生成模型,相关技术中往往仅与单个特定主播相关联,导致其训练需依赖大量的特定主播的音视频同步数据,每增加一个新主播,都需重新训练模型,工作量庞大,不便于产生多种虚拟主播形象。
发明内容
本公开提供一种唇形模型的训练方法和装置、语音动画合成方法和装置、电子设备、计算机可读存储介质、计算机程序产品,以至少解决相关技术中的不便于产生多种虚拟主播形象的问题,也可不解决任何上述问题。
根据本公开的第一方面,提供了一种唇形模型的训练方法,所述唇形模型包括音素唇形预测网络和说话人线性映射网络,所述训练方法包括:获取多个说话人的音视频数据样本;从所述多个说话人的音视频数据样本获取音素序列和真实唇形系数;将所述音素序列输入所述音素唇形预测网络,得到预测的隐空间唇形系数;将所述预测的隐空间唇形系数输入对应说话人的说话人线性映射网络,得到所述对应说话人的预测的唇形系数,其中,所述多个说话人中的每个说话人对应一个说话人线性映射网络;根据所述预测的唇形系数和所述真实唇形系数确定所述唇形模型的损失函数的值;通过根据所述损失函数的值调整所述音素唇形预测网络和所述对应说话人的说话人线性映射网络的参数,对所述唇形模型进行训练。
可选地,对于所述多个说话人中的每个说话人,所述音素序列包括所述音视频数据中的多个音素帧,所述真实唇形系数包括所述音视频数据中的多个视频帧对应的唇形系数,所述音视频数据中的音素帧数量大于或等于视频帧数量,每个视频帧均存在一个时间上相对应的音素帧。
可选地,所述将所述音素序列输入所述音素唇形预测网络,得到预测的隐空间唇形系数,包括:将与当前视频帧相对应的音素帧及其周围至少一个音素帧输入所述音素唇形预测网络,得到当前视频帧的预测的隐空间唇形系数;或将与当前视频帧的每个参考视频帧相对应的音素帧及其周围至少一个音素帧输入所述音素唇形预测网络,得到每个参考视频帧的预估隐空间唇形系数和预测权重,根据所述预测权重计算所有参考视频帧的所述预估隐空间唇形系数的加权平均值,作为当前视频帧的预测的隐空间唇形系数,其中,当前视频帧的参考视频帧包括当前视频帧及其周围至少一个视频帧。
可选地,所述唇形模型的损失函数是所述预测的唇形系数与所述真实唇形系数的均方误差;或所述唇形模型的损失函数是所述预测的唇形系数对应的三维空间顶点与所述真实唇形系数对应的三维空间顶点的加权均方误差,其中,唇部区域的三维空间顶点的均方误差的权重大于或等于其他区域的三维空间顶点的均方误差的权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110591866.4/2.html,转载请声明来源钻瓜专利网。