[发明专利]语音合成中预测基频帧的方法及系统有效
申请号: | 201610091573.9 | 申请日: | 2016-02-19 |
公开(公告)号: | CN105679306B | 公开(公告)日: | 2019-07-09 |
发明(设计)人: | 刘青松;许东星;王鸣;黄盼 | 申请(专利权)人: | 云知声(上海)智能科技有限公司 |
主分类号: | G10L13/06 | 分类号: | G10L13/06;G10L15/02 |
代理公司: | 上海唯源专利代理有限公司 31229 | 代理人: | 曾耀先 |
地址: | 200233 上海市徐*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 合成 预测 基频 方法 系统 | ||
1.一种语音合成中预测基频帧的方法,其特征在于,包括:
输入待合成语音的文本信息;
将所述文本信息转化为语音特征帧序列;
预测所述语音特征帧序列中的每一语音特征帧是否为基频帧,以形成基频预测结果;
将所述文本信息转化为音素信息序列;
判断所述音素信息序列中每一音素是否为含基频信息音素,以形成辅助信息,每一音素对应多个语音特征帧;以及
将所述音素信息序列与所述语音特征帧序列相对应,并根据所述辅助信息修正所述基频预测结果以形成语音特征帧是否含有基频信息的结果。
2.如权利要求1所述的语音合成中预测基频帧的方法,其特征在于,预测所述语音特征帧序列中的每一语音特征帧是否为基频帧,以形成基频预测结果,包括:
计算每一语音特征帧是否为基频帧的概率,形成对应所述语音特征帧序列的概率序列;
设定预测阈值,将所述概率序列中高于所述预测阈值的概率所对应的语音特征帧判断为基频帧,将所述概率序列中低于所述预测阈值的概率所对应的语音特征帧判断为非基频帧,从而形成了对应所述语音特征帧序列的所述基频预测结果。
3.如权利要求1或2所述的语音合成中预测基频帧的方法,其特征在于,判断所述音素信息序列中每一音素是否为含基频信息音素,以形成辅助信息,包括:
将语言中的所有音素以是否带基频进行分类,形成含基频信息音素集合和无基频信息音素集合;
将所述音素信息序列中的每一音素与所述含基频信息音素集合和无基频信息音素集合进行比对,以得出所述音素是否为含基频信息音素,进而形成对应所述音素信息序列的辅助信息。
4.如权利要求2所述的语音合成中预测基频帧的方法,其特征在于,根据所述辅助信息修正所述基频预测结果以形成基频识别结果,包括:
获取所述辅助信息中的所有含基频信息音素;
获取所有含基频信息音素所对应的语音特征帧,对所获取的语音特征帧中为非基频帧的语音特征帧进行修正。
5.如权利要求4所述的语音合成中预测基频帧的方法,其特征在于,获取所有含基频信息音素所对应的语音特征帧,对所获取的语音特征帧中为非基频帧的语音特征帧进行修正,包括:
对每一含基频信息音素对应的语音特征帧所形成的语音特征帧范围进行位置划分,划分为前部位置、中部位置、以及后部位置;
判断当前的语音特征帧在对应的语音特征帧范围内的位置,若当前的语音特征帧在所述中部位置,则对当前的语音特征帧的基频预测结果不进行修正;
若当前的语音特征帧在所述前部位置,且在音素信息序列中与当前的语音特征帧所在的音素相邻的前一音素为含基频信息音素,则将当前语音特征帧修正为基频帧;
若当前的语音特征帧在所述后部位置,且在音素信息序列中与当前的语音特征帧所在的音素相邻的后一音素为含基频信息音素,则将当前语音特征帧修正为基频帧。
6.一种语音合成中预测基频帧的系统,其特征在于,包括:
文本输入模块,用于输入待合成语音的文本信息;
预测判断模块,与所述文本输入模块连接,用于将所述文本信息转化为语音特征帧序列,并预测所述语音特征帧序列中的每一语音特征帧是否为基频帧,以形成基频预测结果;
音素判断模块,与所述文本输入模块连接,用于将所述文本信息转化为音素信息序列,并判断所述音素信息序列中每一音素是否为含基频信息音素,以形成辅助信息;以及
基频修正模块,与所述预测判断模块和所述音素判断模块连接,用于将所述音素信息序列中的音素和所述语音特征帧序列中的语音特征帧相对应,并根据所述辅助信息修正所述基频预测结果以形成语音特征帧是否含有基频信息的结果,每一音素对应多个语音特征帧。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云知声(上海)智能科技有限公司,未经云知声(上海)智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610091573.9/1.html,转载请声明来源钻瓜专利网。