[发明专利]一种提高语音合成效果的方法和设备有效
申请号: | 202110268228.9 | 申请日: | 2021-03-12 |
公开(公告)号: | CN113053354B | 公开(公告)日: | 2022-08-26 |
发明(设计)人: | 周瑜秋;孙见青;梁家恩 | 申请(专利权)人: | 云知声智能科技股份有限公司;厦门云知芯智能科技有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/04;G10L13/06 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100096 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 提高 语音 合成 效果 方法 设备 | ||
本发明涉及一种提高语音合成效果的方法和设备,应用于ParallelWaveGAN,所述Parallel WaveGAN中包括生成器;该方法包括:获取所述Parallel WaveGAN中生成器的语音信号;获取原始语音信号;对所述生成器的语音信号与所述原始语音信号进行小波变换处理;对进行小波变换处理后的信号进行损失计算;将计算得到的损失作为所述生成器的损失的一部分,以使所述生成器更好的捕捉语音信号的时频分布,从而提升合成效果。本方案中利用小波变换,对生成器的信号和原始信号做多层分解,计算每一层的系数进行损失计算,本方案不需要像原来的STFT的做法,多次设置尺度,加大运算量,本方案中将小波变换结果的Loss,作为生成器的Loss的一部分,让生成器更好的捕捉语音信号的时频分布,从而提升合成效果。
技术领域
本发明涉及机器翻译技术领域,具体涉及一种提高语音合成效果的方法和设备。
背景技术
当前神经网络合成器中,Parallel WaveGAN是实时率比较高的一种合成器。为了获取语音信号的时频分布和提高合成效果,如图1所示,训练过程中生成器的Loss(损失)加入了多分辨率的STFT(短时傅里叶变换)的Loss。
对于STFT的尺度是固定,在训练过程中,单次运算无法实现可变尺度问题。并且,对短时平稳的语音信号,进行分帧,再做STFT,而且还有overlap(重叠),运算量较大,并且每一个尺度的运算量都重新计算,训练速度较慢。
由此,目前需要有一种更好的方案来解决现有技术中的问题。
发明内容
本发明提供一种提高语音合成效果的方法和设备,能够解决现有技术中训练速度不佳的技术问题。
本发明解决上述技术问题的技术方案如下:
本发明实施例提出了一种提高语音合成效果的方法,应用于Parallel WaveGAN,所述Parallel WaveGAN中包括生成器;该方法包括:
获取所述Parallel WaveGAN中生成器的语音信号;
获取原始语音信号;
对所述生成器的语音信号与所述原始语音信号进行小波变换处理;
对进行小波变换处理后的信号进行损失计算;
将计算得到的损失作为所述生成器的损失的一部分,以使所述生成器更好的捕捉语音信号的时频分布,从而提升合成效果。
在一个具体的实施例中,所述小波变换处理包括对所述生成器的语音信号与所述原始语音信号进行多层分解;
所述损失计算包括对分解后的每层进行损失计算;每层损失计算得到每层损失;
所述“将计算得到的损失作为所述生成器损失的一部分”,包括:
汇总每层损失作为小波变换损失;
将小波变换损失作为所述生成器损失的一部分。
在一个具体的实施例中,所述Parallel WaveGAN中还包括识别器;所述识别器对所述原始语音信号进行识别时,对应有识别损失;
所述生成器的损失由小波变换损失与所述识别损失组成。
在一个具体的实施例中,所述小波变换处理包括:离散小波变换处理。
在一个具体的实施例中,所述“对所述生成器的语音信号与所述原始语音信号进行小波变换处理”,包括:
将所述生成器的语音信号与所述原始语音信号进行滤波处理,以得到最上层的细节信号和近似信号;
对上一层中近似信号进行滤波处理,得到当前层的细节信号和近似信号;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云知声智能科技股份有限公司;厦门云知芯智能科技有限公司,未经云知声智能科技股份有限公司;厦门云知芯智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110268228.9/2.html,转载请声明来源钻瓜专利网。