[发明专利]语音合成方法、装置、电子设备以及程序产品有效
申请号: | 202110264700.1 | 申请日: | 2021-03-11 |
公开(公告)号: | CN112951202B | 公开(公告)日: | 2022-11-08 |
发明(设计)人: | 文成;郭庭炜 | 申请(专利权)人: | 北京嘀嘀无限科技发展有限公司 |
主分类号: | G10L13/047 | 分类号: | G10L13/047;G10L25/30;G10L19/04;G10L19/16 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 杜叶蕊;刘芳 |
地址: | 100193 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 合成 方法 装置 电子设备 以及 程序 产品 | ||
1.一种语音合成方法,其特征在于,包括:
获取声学特征数据在多个采样时刻的特征采样数据;
利用语音合成网络同时对所述多个采样时刻的特征采样数据进行预测处理,获得所述多个采样时刻中任意两个目标采样时刻的线性预测数据和非线性预测数据;其中,所述任意两个目标采样时刻的线性预测数据是根据历史语音合成数据与线性预测系数进行组合以得到的,所述线性预测系数是语音合成装置利用线性预测模块对所述多个采样时刻特征采样数据进行线性预测处理得到的;
根据所述两个目标采样时刻的线性预测数据和非线性预测数据,确定所述两个目标采样时刻的语音合成数据。
2.根据权利要求1所述的语音合成方法,其特征在于,所述利用语音合成网络同时对所述多个采样时刻的特征采样数据进行预测处理,获得所述多个采样时刻中任意两个目标采样时刻的线性预测数据和非线性预测数据,包括:
获取第m-1个采样时刻的语音合成数据Sm-1和非线性语音数据Em-1,以及第m-2个采样时刻的语音合成数据Sm-2和非线性语音数据Em-2;
对第m个采样时刻以及第m+1个采样时刻的特征采样数据、语音合成数据Sm-1、非线性语音数据Em-1、语音合成数据Sm-2、非线性语音数据Em-2、第m个采样时刻的线性语音数据Pm以及第m+1个采样时刻的线性语音数据Pm+1进行非线性预测处理,获得第m个采样时刻的非线性语音数据Em和第m+1个采样时刻的非线性语音数据Em+1。
3.根据权利要求2所述的语音合成方法,其特征在于,所述语音合成网络包括帧率子网络和采样点子网络;
所述非线性预测处理,包括:
将第m个采样时刻以及第m+1个采样时刻的特征采样数据输入至所述帧率子网络,获得输出向量f;
将所述语音合成数据Sm-1、非线性语音数据Em-1、语音合成数据Sm-2、非线性语音数据Em-2、线性语音数据Pm、线性语音数据Pm+1以及输出向量f输入至所述采样点子网络,输出所述第m个采样时刻的非线性语音数据Em和第m+1个采样时刻的非线性语音数据Em+1。
4.根据权利要求3所述语音合成方法,其特征在于,所述采样点子网络包括:采样层、映射层、全连接层、分类器;
将所述语音合成数据Sm-1、非线性语音数据Em-1、语音合成数据Sm-2、非线性语音数据Em-2、线性语音数据Pm、线性语音数据Pm+1以及输出向量f输入至所述采样层,输出采样数据;
将获得的采样数据输入至所述映射层,以对所述采样数据进行数据映射,获得第m个采样时刻对应的采样数据,和第m+1个采样时刻对应的采样数据;
将所述第m个采样时刻对应的采样数据,和第m+1个采样时刻对应的采样数据分别依次输入至所述全连接层和分类器,分别获得输出的第m个采样时刻的采样分布和第m+1个采样时刻的采样分布;
根据所述第m个采样时刻的采样分布确定第m个采样时刻的非线性语音数据Em;以及,根据所述第m+1个采样时刻的采样分布确定第m+1个采样时刻的非线性语音数据Em+1。
5.根据权利要求4所述的语音合成方法,其特征在于,所述语音合成网络为LPCNet网络,所述采样层为所述LPCNet网络中的GRU层。
6.根据权利要求5所述的语音合成方法,其特征在于,所述GRU层包括第一GRU层和第二GRU层;
所述第一GRU层和第二GRU层采用不同的采样频率对输入该层的数据进行采样处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京嘀嘀无限科技发展有限公司,未经北京嘀嘀无限科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110264700.1/1.html,转载请声明来源钻瓜专利网。