[发明专利]语音合成中预测基频帧的方法及系统有效

申请号：	201610091573.9	申请日：	2016-02-19
公开（公告）号：	CN105679306B	公开（公告）日：	2019-07-09
发明（设计）人：	刘青松;许东星;王鸣;黄盼	申请（专利权）人：	云知声（上海）智能科技有限公司
主分类号：	G10L13/06	分类号：	G10L13/06;G10L15/02
代理公司：	上海唯源专利代理有限公司 31229	代理人：	曾耀先
地址：	200233 上海市徐***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音合成预测基频方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种语音合成中预测基频帧的方法及系统，该方法包括：输入待合成语音的文本信息；将所述文本信息转化为语音特征帧序列；预测每一语音特征帧是否为基频帧，以形成基频预测结果；将所述文本信息转化为音素信息序列；判断每一音素是否为含基频信息音素，以形成辅助信息，每一音素对应多个语音特征帧；以及将所述音素信息序列与所述语音特征帧序列相对应，并根据所述辅助信息修正所述基频预测结果以形成语音帧是否含有基频信息的结果。本发明从输入的文本信息中提取音素信息，利用音素信息是否带基频作为辅助信息，对基频预测结果进行修正，实现提高基频帧预测的准确率，进而提高合成后的语音的自然度，优化声音效果。

技术领域

本发明涉及语音合成领域，特指一种语音合成中预测基频帧的方法及系统。

背景技术

语音合成是指将输入的文本信息转化为声音的系统，语音合成系统分为两个模块，前端处理模块和后端模块。在前端中对文本进行分析，输出带有发音以及分词、词性等和韵律停顿相关的信息。后端模块利用前端模块的输出信息和原始语音提出的特征，分别训练倒谱模型，基频模型和时长模型。

为了描述方便，含有基频信息的语音特征帧称之为基频帧，不含基频信息的语音特征帧称之为非基频帧。在合成时，合成系统的后端模块中需要对当前语音特征帧(帧长一般为5ms)是否是基频帧做出预测。基频帧其预测的数值接近于1，非基频帧其预测的数值接近于0。现有的做法是采取固定的阈值判断，典型的阈值为0.5，预测值高于阈值0.5，系统判断为基频帧，预测值低于阈值0.5，系统判断为非基频帧。

这种判断方式，在两个音素的边界点处的准确率较低，而将基频帧误判为非基频帧会导致相应的语音听起来不连续和沙哑，合成系统语音的自然度较差，效果不佳。

发明内容

本发明的目的在于克服现有技术的缺陷，提供一种语音合成中预测基频帧的方法及系统，解决现有技术中基频帧的判断准确率低，使得合成后的语音存在发音不连续、沙哑、和自然度较差的问题。

实现上述目的的技术方案是：

本发明一种语音合成中预测基频帧的方法，包括：

输入待合成语音的文本信息；

将所述文本信息转化为语音特征帧序列；

预测所述语音特征帧序列中的每一语音特征帧是否为基频帧，以形成基频预测结果；

将所述文本信息转化为音素信息序列；

判断所述音素信息序列中每一音素是否为含基频信息音素，以形成辅助信息，每一音素对应多个语音特征帧；以及

将所述音素信息序列与所述语音特征帧序列相对应，并根据所述辅助信息修正所述基频预测结果以形成语音特征帧是否含有基频信息的结果。

本发明从输入的文本信息中提取音素信息，利用音素信息是否带基频作为辅助信息，对基频预测结果进行修正，实现提高基频帧预测的准确率，进而提高合成后的语音的自然度，优化声音效果。