[发明专利]一种基于流生成模型的语音合成方法在审
申请号: | 202110855783.1 | 申请日: | 2021-07-28 |
公开(公告)号: | CN113299268A | 公开(公告)日: | 2021-08-24 |
发明(设计)人: | 陈佩云;曹艳艳;高君效 | 申请(专利权)人: | 成都启英泰伦科技有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/08;G06N3/08;G06N3/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610041 四川省成都市高*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 生成 模型 语音 合成 方法 | ||
一种基于流生成模型的语音合成方法,训练过程包括以下步骤:S11.将训练音频文本输入编码器网络,得到当前分布参数、当前隐向量、当前对齐矩阵;S12.对时长模型进行训练更新;S13.完成解码器网络和编码器网络更新;S14利用更新后的编码器网络和解码器网络;重复步骤S11至S13,直至时长模型、编码器网络和解码器网络均达到收敛。本发明利用流生成模型动态规划的特性,可自行搜索文本和语音之间的潜在表示的最有可能的单调对齐以实现高鲁棒性的语音合成,克服了在合成时可能出现的多字漏字的情况,并且能够扩展到长语音的合成。同时,利用基于流的并行生成模型可以实现快速,可控的语音合成。
技术领域
本发明属于人工智能语音合成技术领域,具体涉及一种基于流生成模型的语音合成方法。
背景技术
近年来人工智能迅速发展,人机交互也走进生活,一种自然、优美、高效的语音合成技术备受关注。语音合成技术也称为文本转换语音技术(Text To Speech,TTS),在人机交互的过程中可以充当机器的嘴巴,将想要表达的意思通过语音表达。
目前语音合成技术已经能够满足大部分场景的需求,基于端到端网络的语音合成技术的出现,克服了传统基于参数的语音合成的自然度不足,机械感重的问题,把语音合成推向新的高度。虽然目前主流的端到端网络综合合成质量很高,但端到端的语音合成技术由于采用了自回归网路在实时服务器上部署是很大的难题。另一方面,大部分的自回归模型都缺乏鲁棒性,具体表现在当输入文本过长,或者是文本包含重复的词时,自回归模型可能会产生严重的注意错误,导致合成语音出现漏读、重复读现象。虽然目前有一些非自回归的端到端模型,但在训练时需要依赖其他自回归模型做限制大幅增加训练难度。因此一种能够部署在实时服务器上,以及合成稳定性高,训练难度低的语音合成系统是一种迫切的需求。
发明内容
为克服现有技术存在的技术缺陷,本发明公开了一种基于流生成模型的语音合成方法。
本发明所述基于流生成模型的语音合成方法,包括训练过程和合成过程,所述训练过程包括以下步骤:
S10.采集训练音频和对应文本,提取音频梅尔特征,搭建初始状态的编码器网络、基于流生成模型的解码器网络和时长模型;
S11.将训练音频文本输入编码器网络,得到当前分布参数θ* ;将训练音频的梅尔特征输入基于流生成模型的解码器网络,输出当前隐向量HS;并在单调对齐规则下采用维特比算法得到当前对齐矩阵M*;
S12.利用当前对齐矩阵M*和当前分布参数θ*,根据单调对齐方式得到拟隐向量H*;
以当前分布参数θ*作为时长模型输入,以当前对齐矩阵M*作为训练目标,对时长模型进行训练更新;
S13.对基于流生成模型的解码器网络输出的当前隐向量HS与拟隐向量H*,计算出二者的均方差,作为损失函数传递给解码器网络完成解码器网络更新;
更新后的解码器网络输出中间隐向量HA, 利用中间隐向量HA反推出中间对齐矩阵MA,利用中间对齐矩阵MA得到中间分布参数θA,将当前分布参数θ*与中间分布参数θA的均方差作为损失函数传递到编码器网络,更新编码器网络;从而完成一次解码器网络和编码器网络的更新;
S14利用更新后的编码器网络和解码器网络;重复步骤S11至S13,直至时长模型、编码器网络和解码器网络均达到收敛;
所述合成过程利用上述训练过程结束后得到的时长模型、编码器网络和解码器网络进行语音合成;包括以下步骤:
S21.将待合成文本信息编码,输入编码器网络生成分布参数θ。
S22.将分布参数θ输入时长模型,得到每个参数对应的时长信息;
S23.结合时长信息以及分布参数θ计算出隐向量H;
S24.将隐向量H输入解码器网络做逆运算得到梅尔特征;
S25.将梅尔特征输入声码器,得到合成音频。
优选的,所述声码器为hifi-gan声码器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都启英泰伦科技有限公司,未经成都启英泰伦科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110855783.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:执法记录仪系统和流程
- 下一篇:一种隔离功耗调整电路