[发明专利]语音合成方法、系统、设备及存储介质有效
申请号: | 202010182535.0 | 申请日: | 2020-03-16 |
公开(公告)号: | CN113409756B | 公开(公告)日: | 2022-05-03 |
发明(设计)人: | 杨辰雨;雷鸣 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/04;G10L13/08;G10L19/04;G10L19/16;G10L25/03;G10L25/30 |
代理公司: | 北京太合九思知识产权代理有限公司 11610 | 代理人: | 张爱;刘戈 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 合成 方法 系统 设备 存储 介质 | ||
1.一种语音合成方法,其特征在于,包括:
利用与多个通道对应的滤波器对待合成文本对应的初始语音进行子带分析,对子带分析得到的多通道上的语音信号分别进行特征提取得到待合成文本在多个通道上的声学特征,不同通道对应不同声学频带;
利用结合了线性预测编码的神经网络对所述多个通道上的声学特征分别进行预测,得到所述多个通道上的线性预测参数和非线性残差;
根据所述多个通道上的线性预测参数和非线性残差进行语音合成,得到所述待合成文本对应的合成语音,包括:
对每个通道,根据所述通道上的线性预测参数和非线性残差进行语音合成,得到所述通道上的合成语音;将所述多个通道上的合成语音进行叠加,得到所述待合成文本对应的合成语音。
2.根据权利要求1所述的方法,其特征在于,所述待合成文本在多个通道上的声学特征是语音合成系统中前端模块利用与多个通道对应的滤波器对待合成文本对应的初始语音进行子带分析,对子带分析得到的多通道上的语音信号分别进行特征提取得到的。
3.根据权利要求1-2任一项所述的方法,其特征在于,利用结合了线性预测编码的神经网络对所述多个通道上的声学特征进行预测,得到所述多个通道上的线性预测参数和非线性残差,包括:
将所述多个通道上的声学特征输入多通道线性预测网络声码器,所述多通道线性预测网络声码器包含结合了线性预测编码的神经网络;以及
利用所述多通道线性预测网络声码器对所述多个通道上的声学特征进行预测,得到所述多个通道上的线性预测参数和非线性残差。
4.根据权利要求3所述的方法,其特征在于,利用所述多通道线性预测网络声码器对所述多个通道上的声学特征进行预测,得到所述多个通道上的线性预测参数和非线性残差,包括:
利用所述多通道线性预测网络声码器中的帧速率网络,对所述多个通道上的声学特征以帧为单位进行特征转换得到条件向量;
对所述多个通道上的声学特征分别进行线性预测编码,得到多个通道上的线性预测参数;
基于所述条件向量和所述多个通道上的线性预测参数,利用所述多通道线性预测网络声码器中的采样率网络预测所述多个通道上的非线性残差。
5.根据权利要求1所述的方法,其特征在于,将所述多个通道上的合成语音进行叠加,得到所述待合成文本对应的合成语音,包括:
对所述多个通道上的合成语音进行上采样,得到所述多个通道上具有指定采样率的合成语音;
对所述多个通道上具有指定采样率的合成语音进行叠加,得到所述待合成文本对应的合成语音。
6.根据权利要求4所述的方法,其特征在于,每个通道上的声学特征包括:多个采样特征;对所述多个通道上的声学特征分别进行线性预测编码,得到多个通道上的线性预测参数,包括:
对每个通道,对所述通道上的当前采样特征和所述通道上前一采样特征对应的合成语音进行线性预测,得到所述通道上当前采样特征对应的线性预测参数。
7.根据权利要求6所述的方法,其特征在于,基于所述条件向量和所述多个通道上的线性预测参数,利用所述多通道线性预测网络声码器中的采样率网络预测所述多个通道上的非线性残差,包括:
将所述条件向量、所述多个通道上当前采样特征对应的线性预测参数、所述多个通道上前一采样特征对应的合成语音以及所述采样率网络输出的所述多个通道上前一采样特征对应的非线性残差输入所述采样率网络进行非线性预测,得到所述多个通道上当前采样特征对应的非线性残差。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010182535.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:检测装置及光刻设备
- 下一篇:一种实现废旧线路板无氧裂解的回收方法