[发明专利]一种产生新音色的语音合成方法有效
申请号: | 201910780718.X | 申请日: | 2019-08-22 |
公开(公告)号: | CN110459201B | 公开(公告)日: | 2022-01-07 |
发明(设计)人: | 孙见青 | 申请(专利权)人: | 云知声智能科技股份有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/033;G10L13/04 |
代理公司: | 北京冠和权律师事务所 11399 | 代理人: | 张楠楠 |
地址: | 100000 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 产生 音色 语音 合成 方法 | ||
1.一种产生新音色的语音合成方法,其特征在于,包括:
利用多个音库数据对深度神经网络进行训练,形成第一合成模型;
利用所述多个音库数据分别训练所述第一合成模型,形成与所述多个音库数据对应的多个第二合成模型;
利用所述第一合成模型推理出第一输出参数,并将第一输出参数作为多个第二合成模型的输入;
利用所述多个第二合成模型推理出与所述第二合成模型对应的多个第二输出参数,形成第二输出参数组;
对所述第二输出参数组进行加权叠加形成声学参数;
利用声码器重构所述声学参数形成合成语音。
2.根据权利要求1所述的方法,其特征在于,所述音库数据包括:声学特征,以及,与所述声学特征对应的文本信息;
其中,所述声学特征包括频谱、能量、基频和时长;
所述文本信息包括音素信息和韵律信息。
3.根据权利要求1所述的方法,其特征在于,利用多个音库数据对深度神经网络进行训练,包括:
对多个音库数据中的文本信息进行编码,形成1116维二值数字作为深度神经网络的第一输入数据;
对多个音库数据中的声学特征进行建模,形成一个133维二值数字和一个1维二值数字作为深度神经网络的第一输出数据;
利用所述第一输入数据和所述第一输出数据对所述深度神经网络进行训练。
4.根据权利要求3所述的方法,其特征在于,对多个音库数据中的文本信息进行编码,包括:
获取文本信息中的音素信息和韵律信息,对所述音素信息和所述韵律信息进行0/1编码,得到1114维二值数字;
加入当前帧在当前音素中的相对位置信息,包括前向位置信息和后向位置信息,得到2维二值数字;
将所述1114维二值数字和所述2维二值数字叠加形成1116维二值数字。
5.根据权利要求3所述的方法,其特征在于,对多个音库数据中的声学特征进行建模,包括:
对声学特征中的频谱、能量和基频进行建模,其中频谱40维、能量1维、基频1维、基频清浊标记1维,对基频进行考虑前面4帧和后面4帧的帧扩展,对频谱和能量考虑一阶差分信息和二阶差分信息,得到133维二值数字;
对声学特征中的时长进行建模,得到1维二值数字。
6.根据权利要求3所述的方法,其特征在于,利用所述第一输入数据和所述第一输出数据训练深度神经网络,包括:
利用深度神经网络构建回归模型,其中,所述深度神经网络的隐层使用sigmoid激励函数,所述深度神经网络的输出层使用linear激励函数;
随机初始化所述深度神经网络的网络参数;
基于MMSE准则利用所述第一输入数据和所述第一输出数据对所述深度神经网络模型进行训练,训练的表达式为:
其中,
7.根据权利要求1所述的方法,其特征在于,利用所述多个音库数据分别训练所述第一合成模型,包括:
对每个音库数据中的文本信息进行编码,形成1116维二值数字作为第一合成模型的第二输入数据;
对每个音库数据中的声学特征进行建模,形成一个133维二值数字和一个1维二值数字作为第一合成模型的第二输出数据;
利用所述第二输入数据和所述第二输出数据对所述第一合成模型进行训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云知声智能科技股份有限公司,未经云知声智能科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910780718.X/1.html,转载请声明来源钻瓜专利网。