[发明专利]语音合成方法和装置、用于语音合成的装置有效
申请号: | 201710051436.7 | 申请日: | 2017-01-23 |
公开(公告)号: | CN108346424B | 公开(公告)日: | 2021-11-19 |
发明(设计)人: | 孟凡博 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L15/14;G10L25/93 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 刘祥景 |
地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 合成 方法 装置 用于 | ||
本发明实施例提供了一种语音合成方法和装置、用于语音合成的装置,其中的方法具体包括:接收待合成文本;在所述待合成文本的语音合成过程中,依据频谱参数对所述待合成文本对应状态或者帧的清浊性进行判定,以得到对应的清浊性判定结果;依据所述清浊性判定结果,得到所述待合成文本对应的合成语音。本发明实施例能够有效改善由于清浊音判定错误而导致的合成语音中出现噪声的问题,进而能够提高合成语音的听感和音质。
技术领域
本发明涉及语音合成技术领域,特别是涉及一种语音合成方法和装置、以及一种用于语音合成的装置。
背景技术
语音合成技术又称文语转换(TTS,Text-to-Speech)技术,即将文字转换为语音的技术,该技术赋予计算机像人一样自如说话的能力,使用户与机器之间的信息沟通更加舒服自然。
目前,基于隐马尔可夫模型(HMM,Hidden Markov Model)的语音合成(HTS,HMM-based Speech Synthesis System)得到广泛的重视和应用。HTS的基本思路是:对语音信号进行参数化分解,并建立各声学参数对应的HMM模型,合成时利用训练得到的HMM模型预测待合成文本的声学参数,这些声学参数被输入至参数合成器,最终得到合成语音。在语音合成技术中,通常会涉及到清浊音判定问题。
现有的清浊音判定方案通常在基频维度进行清浊音判定,相应的清浊音判定过程可以包括:在基频维度上对清浊音进行统计建模,得到的基频参数模型中可以包括:浊音权重参数,并依据该浊音权重参数判定状态的清浊性,例如,若该浊音权重参数超过0.5,则该状态被判定为浊音,否则,若该浊音权重参数未超过0.5,则该状态被判定为清音。
然而,在实际应用中现有的清浊音判定方案容易出现清浊音判定错误的问题。而当清浊音判定错误时,合成语音中会出现杂音,尤其地当浊音被判定为清音时,由于浊音的能量较大,会产生明显的噪声,影响合成语音的听感。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的语音合成方法、语音合成装置、及用于语音合成的装置,本发明实施例能够有效改善由于清浊音判定错误而导致的合成语音中出现噪声的问题,进而能够提高合成语音的听感和音质。
为了解决上述问题,本发明公开了一种语音合成方法,包括:
接收待合成文本;
在所述待合成文本的语音合成过程中,依据频谱参数对所述待合成文本对应状态或者帧的清浊性进行判定,以得到对应的清浊性判定结果;
依据所述清浊性判定结果,得到所述待合成文本对应的合成语音。
可选地,所述依据频谱参数对所述待合成文本对应状态或者帧的清浊性进行判定的步骤,包括:
在所述待合成文本的语音合成过程中,依据隐马尔可夫模型HMM模型,获取与所述待合成文本对应状态相匹配的目标频谱叶节点;其中,所述HMM模型包括:决策树,所述决策树包括:频谱决策树,所述频谱决策树包括:频谱叶节点;
依据所述目标频谱叶节点的清浊性概率,判定所述待合成文本对应状态的清浊性。
可选地,通过如下步骤获取所述目标频谱叶节点的清浊性概率:
从所述目标频谱叶节点的参数中读取所述目标频谱叶节点的清浊性概率。
可选地,所述方法还包括:
依据训练数据,得到HMM模型;其中,所述训练数据包括:训练录音数据;
依据所述频谱决策树中频谱叶节点对应的目标帧训练录音数据中清浊音的分布,确定所述频谱叶节点的清浊性概率,并将所述频谱叶节点的清浊性概率作为所述频谱叶节点的参数保存。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710051436.7/2.html,转载请声明来源钻瓜专利网。