[发明专利]语音合成中预测基频帧的方法及系统有效
申请号: | 201610091573.9 | 申请日: | 2016-02-19 |
公开(公告)号: | CN105679306B | 公开(公告)日: | 2019-07-09 |
发明(设计)人: | 刘青松;许东星;王鸣;黄盼 | 申请(专利权)人: | 云知声(上海)智能科技有限公司 |
主分类号: | G10L13/06 | 分类号: | G10L13/06;G10L15/02 |
代理公司: | 上海唯源专利代理有限公司 31229 | 代理人: | 曾耀先 |
地址: | 200233 上海市徐*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 合成 预测 基频 方法 系统 | ||
本发明涉及一种语音合成中预测基频帧的方法及系统,该方法包括:输入待合成语音的文本信息;将所述文本信息转化为语音特征帧序列;预测每一语音特征帧是否为基频帧,以形成基频预测结果;将所述文本信息转化为音素信息序列;判断每一音素是否为含基频信息音素,以形成辅助信息,每一音素对应多个语音特征帧;以及将所述音素信息序列与所述语音特征帧序列相对应,并根据所述辅助信息修正所述基频预测结果以形成语音帧是否含有基频信息的结果。本发明从输入的文本信息中提取音素信息,利用音素信息是否带基频作为辅助信息,对基频预测结果进行修正,实现提高基频帧预测的准确率,进而提高合成后的语音的自然度,优化声音效果。
技术领域
本发明涉及语音合成领域,特指一种语音合成中预测基频帧的方法及系统。
背景技术
语音合成是指将输入的文本信息转化为声音的系统,语音合成系统分为两个模块,前端处理模块和后端模块。在前端中对文本进行分析,输出带有发音以及分词、词性等和韵律停顿相关的信息。后端模块利用前端模块的输出信息和原始语音提出的特征,分别训练倒谱模型,基频模型和时长模型。
为了描述方便,含有基频信息的语音特征帧称之为基频帧,不含基频信息的语音特征帧称之为非基频帧。在合成时,合成系统的后端模块中需要对当前语音特征帧(帧长一般为5ms)是否是基频帧做出预测。基频帧其预测的数值接近于1,非基频帧其预测的数值接近于0。现有的做法是采取固定的阈值判断,典型的阈值为0.5,预测值高于阈值0.5,系统判断为基频帧,预测值低于阈值0.5,系统判断为非基频帧。
这种判断方式,在两个音素的边界点处的准确率较低,而将基频帧误判为非基频帧会导致相应的语音听起来不连续和沙哑,合成系统语音的自然度较差,效果不佳。
发明内容
本发明的目的在于克服现有技术的缺陷,提供一种语音合成中预测基频帧的方法及系统,解决现有技术中基频帧的判断准确率低,使得合成后的语音存在发音不连续、沙哑、和自然度较差的问题。
实现上述目的的技术方案是:
本发明一种语音合成中预测基频帧的方法,包括:
输入待合成语音的文本信息;
将所述文本信息转化为语音特征帧序列;
预测所述语音特征帧序列中的每一语音特征帧是否为基频帧,以形成基频预测结果;
将所述文本信息转化为音素信息序列;
判断所述音素信息序列中每一音素是否为含基频信息音素,以形成辅助信息,每一音素对应多个语音特征帧;以及
将所述音素信息序列与所述语音特征帧序列相对应,并根据所述辅助信息修正所述基频预测结果以形成语音特征帧是否含有基频信息的结果。
本发明从输入的文本信息中提取音素信息,利用音素信息是否带基频作为辅助信息,对基频预测结果进行修正,实现提高基频帧预测的准确率,进而提高合成后的语音的自然度,优化声音效果。
本发明语音合成中预测基频帧的方法的进一步改进在于,预测所述语音特征帧序列中的每一语音特征帧是否为基频帧,以形成基频预测结果,包括:
计算每一语音特征帧是否为基频帧的概率,形成对应所述语音特征帧序列的概率序列;
设定预测阈值,将所述概率序列中高于所述预测阈值的概率所对应的语音特征帧判断为基频帧,将所述概率序列中低于所述预测阈值的概率所对应的语音特征帧判断为非基频帧,从而形成了对应所述语音特征帧序列的所述基频预测结果。
本发明语音合成中预测基频帧的方法的进一步改进在于,判断所述音素信息序列中每一音素是否为含基频信息音素,以形成辅助信息,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云知声(上海)智能科技有限公司,未经云知声(上海)智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610091573.9/2.html,转载请声明来源钻瓜专利网。