[发明专利]基于语音的嘴型生成方法和装置在审
申请号: | 201910512255.9 | 申请日: | 2019-06-13 |
公开(公告)号: | CN110277099A | 公开(公告)日: | 2019-09-24 |
发明(设计)人: | 刘霄;李鑫;龙翔;张赫男;孙昊;文石磊;丁二锐 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G10L15/25 | 分类号: | G10L15/25;G10L15/06;G10L25/18;G10L25/24;G10L25/30 |
代理公司: | 北京润平知识产权代理有限公司 11283 | 代理人: | 肖冰滨;王晓晓 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 方法和装置 坐标序列 关键点 嘴部 并行处理 处理效率 时间卷积 网络 学习 | ||
1.一种基于语音的嘴型生成方法,其特征在于,该方法包括:
获取所述语音;
根据所述语音以及训练后的时间卷积网络,得到嘴部关键点坐标序列;
根据所述嘴部关键点坐标序列得到所述嘴型。
2.根据权利要求1所述的基于语音的嘴型生成方法,其特征在于,所述方法还包括:
获取测试语音和所述测试语音对应的人物嘴部影像;
根据所述测试语音对应的人物嘴部影像,确定所述人物嘴部影像对应的嘴部关键点坐标序列;
根据所述测试语音和训练前的时间卷积网络,得到所述测试语音对应的嘴部关键点坐标序列;
根据所述人物嘴部影像对应的嘴部关键点坐标序列和所述测试语音对应的嘴部关键点坐标序列,调整训练前的时间卷积网络,以得到训练后的时间卷积网络。
3.根据权利要求1所述的基于语音的嘴型生成方法,其特征在于,所述根据所述语音以及训练后的时间卷积网络,得到嘴部关键点坐标序列包括:
根据所述语音提取梅尔频率倒谱系数特征;
将所述梅尔频率倒谱系数特征输入训练后的时间卷积网络,得到所述嘴部关键点坐标序列。
4.根据权利要求2所述的基于语音的嘴型生成方法,其特征在于,根据所述人物嘴部影像对应的嘴部关键点坐标序列和所述测试语音对应的嘴部关键点坐标序列,调整训练前的时间卷积网络,以得到训练后的时间卷积网络包括:
对比所述测试语音对应的嘴部关键点坐标序列和所述人物嘴部影像对应的嘴部关键点坐标序列,计算均方差损失函数;
根据所述均方差损失函数调整训练前的时间卷积网络的参数,得到训练后的时间卷积网络。
5.根据权利要求1所述的基于语音的嘴型生成方法,其特征在于,所述时间卷积网络为三层。
6.一种基于语音的嘴型生成装置,其特征在于,该装置包括:
获取单元以及处理单元,其中,
所述获取单元用于获取所述语音;
所述处理单元用于根据所述语音以及训练后的时间卷积网络,得到嘴部关键点坐标序列;根据所述嘴部关键点坐标序列得到所述嘴型。
7.根据权利要求6所述的基于语音的嘴型生成装置,其特征在于,该嘴型生成装置还包括训练单元,用于获取测试语音和所述测试语音对应的人物嘴部影像;
根据所述测试语音对应的人物嘴部影像,确定所述人物嘴部影像对应的嘴部关键点坐标序列;
根据所述测试语音和训练前的时间卷积网络,得到所述测试语音对应的嘴部关键点坐标序列;
根据所述人物嘴部影像对应的嘴部关键点坐标序列和所述测试语音对应的嘴部关键点坐标序列,调整训练前的时间卷积网络,以得到训练后的时间卷积网络。
8.根据权利要求6所述的基于语音的嘴型生成装置,其特征在于,所述处理单元具体用于:
根据所述语音提取梅尔频率倒谱系数特征;
将所述梅尔频率倒谱系数特征输入训练后的时间卷积网络,得到所述嘴部关键点坐标序列。
9.一种电子设备,其特征在于,该电子设备包括:
存储器,用于存储程序;
处理器,用于执行所述存储器存储的程序,以实现权利要求1-5中任一项权利要求所述的基于语音的嘴型生成方法。
10.一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令用于使得机器执行权利要求1-5中任一项权利要求所述的基于语音的嘴型生成方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910512255.9/1.html,转载请声明来源钻瓜专利网。