[发明专利]一种个性化语音合成方法及装置在审
申请号: | 202010280636.1 | 申请日: | 2020-04-10 |
公开(公告)号: | CN111613224A | 公开(公告)日: | 2020-09-01 |
发明(设计)人: | 孙见青 | 申请(专利权)人: | 云知声智能科技股份有限公司;厦门云知芯智能科技有限公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L15/16;G10L15/06;G10L15/02 |
代理公司: | 北京冠和权律师事务所 11399 | 代理人: | 张楠楠 |
地址: | 100000 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 个性化 语音 合成 方法 装置 | ||
1.一种个性化语音合成方法,其特征在于,包括以下步骤:
利用第一预设录音和所述第一预设录音对应的第一文本数据对预设神经网络模型进行训练,得到训练后的预设神经网络模型,所述预设神经网络模型包括参数合成模型和语音合成模型;
利用目标发音人的第二预设录音对所述训练后的预设神经网络模型进行二次训练,得到个性化网络模型;
获取所述目标发音人的待合成文本;
将所述待合成文本输入到所述个性化网络模型中获得目标合成语音。
2.根据权利要求1所述个性化语音合成方法,其特征在于,所述参数合成模型包括音素时长模型和基频预测模型,所述语音合成模型包括频谱参数预测模型和语音输出模型;
所述利用第一预设录音和所述第一预设录音对应的第一文本标注数据对预设神经网络模型进行训练,得到训练后的预设神经网络模型,包括:
获取第一预设数量个第一预设录音和所述第一预设数量个第一预设录音各自对应的第一文本数据;
获取所述各第一文本数据中的第一表征音素序列和第一音素时长;
将所述各第一文本数据中的第一表征音素序列作为所述音素时长模型的输入,将所述各第一文本数据中的第一音素时长作为所述音素时长模型的输出来训练所述音素时长模型;
提取所述第一预设数量个第一预设录音各自的第一基频参数;
将所述各第一文本数据中的第一表征音素序列和所述第一预设数量个第一预设录音中各第一预设录音每帧在所述各第一文本数据中的第一表征音素序列中的第一位置信息作为所述基频预测模型的输入,将所述第一预设数量个第一预设录音各自的第一基频参数作为所述基频预测模型的输出来训练所述基频预测模型;
利用训练好的音素时长模型获取所述第一预设数量个第一预设录音的第二音素时长;
根据第一预设数量个第二音素时长对第一预设数量个第一表征音素序列进行第一帧扩展;
提取所述第一预设数量个第一预设语音各自的第一频谱参数;
将第一数量个第一帧扩展之后的第一表征序列作为所述频谱参数预测模型的输入;将所述第一预设数量个第一预设语音各自的第一频谱参数作为所述频谱参数预测模型的输出来训练所述频谱参数预测模型;
将所述第一预设数量个第一预设语音各自的第一频谱参数和第一预设数量个第一预设语音各自的第一基频参数作为所述语音输出模型的输入,将所述第一预设数量个第一预设语音作为所述语音输出模型的输出来训练所述语音输出模型;
当所述音素时长模型、基频预测模型、频谱参数预测模型和语音输出模型都训练完毕后,获得所述训练后的预设神经网络模型。
3.根据权利要求1所述个性化语音合成方法,其特征在于,在利用目标发音人的第二预设录音对所述训练后的预设神经网络模型进行二次训练,得到个性化网络模型之前,所述方法还包括:
获取第二预设数量个第二预设语音和所述第二预设数量个第二预设录音各自对应的第二文本数据;
检查所述第二预设数量个第二预设语音和所述第二预设数量个第二预设录音各自对应的第二文本数据的完整性,将不具有完整性的第二预设语音和第二文本数据剔除掉,重新获取具有完整性的第二预设语音和第二文本数据作为替换,所述完整性包括第二预设语音的语音内容完整和第二文本数据的数据内容完整;
对所述完整的第二预设语音进行预处理,去除所述完整的第二预设语音中的静音部分。
4.根据权利要求1所述个性化语音合成方法,其特征在于,所述利用目标发音人的第二预设录音对所述训练后的预设神经网络模型进行二次训练,得到个性化网络模型,包括:
获取所述各第二文本数据中的第二表征音素序列、第三音素时长和第二预设数量个第二预设录音中各第二预设录音每帧在所述各第二文本数据中的第二表征音素序列中的第二位置信息;
提取所述第二预设数量个第二预设语音各自的第二基频参数和第二频谱参数;
利用所述第二表征音素序列、第三音素时长、第二预设录音中每帧在所述第二表征音素序列中的第二位置信息、第二基频参数、第二频谱参数和第二预设语音来对所述训练后的神经网络模型进行二次训练;
二次训练完毕后获得所述个性化模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云知声智能科技股份有限公司;厦门云知芯智能科技有限公司,未经云知声智能科技股份有限公司;厦门云知芯智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010280636.1/1.html,转载请声明来源钻瓜专利网。