[发明专利]语音合成方法及装置有效
申请号: | 200910222899.0 | 申请日: | 2009-11-20 |
公开(公告)号: | CN101710488A | 公开(公告)日: | 2010-05-19 |
发明(设计)人: | 凌震华;江源;胡郁;胡国平;刘庆峰 | 申请(专利权)人: | 安徽科大讯飞信息科技股份有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 逯长明;王宝筠 |
地址: | 230088 安徽*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 合成 方法 装置 | ||
1.一种语音合成方法,用于利用预先建立的音库对输入的待合成语句进行语音合成,其特征在于,包括:
利用HMM模型预测待合成语句的声学参数,所述声学参数包括:基频F0参数和线谱频率LSF参数;
根据所述待合成语句的声学参数确定待合成语句中的关键帧;
所述确定待合成语句中的关键帧包括:
利用所述待合成语句的LSF参数,选取待合成语句的关键帧位置,所述关键帧位置的选取准则是,在预测的LSF参数序列中选择某些帧,使得基于这些帧的LSF参数恢复整句LSF参数时的恢复误差最小;
从音库中搜索合成所述关键帧所需的语音波形片段,包括:
选定各关键帧一定数量的备选语音波形片段;
挑选最优的关键帧语音波形片段序列;
对合成的所述关键帧所需的语音波形片段进行波形内插处理,并对内插处理后的语音波形进行拼接合成,恢复波形得到合成语音。
2.根据权利要求1所述方法,其特征在于,所述利用HMM模型预测待合成语句的声学参数前还包括:
确定HMM模型:提取所述音库中语音数据的声学参数,结合音库的上下文标注信息,训练声学参数的统计模型;根据待合成语句的上下文属性信息,得到时长、频谱和基频参数的目标HMM模型。
3.根据权利要求1所述方法,其特征在于,所述对合成的所述关键帧所需的语音波形片段进行波形内插处理,并对内插处理后的语音波形进行拼接合成包括:
使用正弦分析方法提取关键帧对应的语音波形片段的复数频谱包络;
通过时域内插得到关键帧之间各帧的复数频谱包络。
4.根据权利要求3所述方法,其特征在于,所述恢复波形得到合成语音包括:
利用各帧复数频谱包络以及结合预测的基频值,恢复出各帧的波形;
通过对所有帧波形的加窗叠加,得到最终的合成语音。
5.一种语音合成装置,用于利用预先建立的音库对输入的待合成语句进行语 音合成,其特征在于,包括:
关键帧确定单元,用于利用HMM模型预测待合成语句的声学参数,根据所述待合成语句的声学参数确定待合成语句中的关键帧;其包括:
声学参数预测子单元,利用所述HMM模型对待合成语句的基频F0参数和线谱频率LSF参数进行预测;
关键帧选取子单元,根据所述待合成语句的LSF参数确定待合成语句中的关键帧;所述确定待合成语句中的关键帧包括:
利用所述待合成语句的LSF参数,选取待合成语句的关键帧位置,所述关键帧位置的选取准则是,在预测的LSF参数序列中选择某些帧,使得基于这些帧的LSF参数恢复整句LSF参数时的恢复误差最小;
波形片段搜索单元,用于从音库中搜索合成所述关键帧所需的语音波形片段;包括:选定各关键帧一定数量的备选语音波形片段;挑选最优的关键帧语音波形片段序列;
波形处理单元,用于对合成的所述关键帧所需的语音波形片段进行波形内插处理,并对内插处理后的语音波形进行拼接合成,恢复波形得到合成语音。
6.根据权利要求5所述装置,其特征在于,所述关键帧确定单元还包括:
目标HMM模型确定子单元,用于提取所述音库中语音数据的声学参数,结合音库的上下文标注信息,训练声学参数的统计模型,并根据待合成语句的上下文属性信息,得到时长、频谱和基频参数的目标HMM模型。
7.根据权利要求5或6所述装置,其特征在于,所述波形处理单元包括:
内插及拼接子单元,用于使用正弦分析方法提取关键帧对应的语音波形片段的复数频谱包络,并通过时域内插得到关键帧之间各帧的复数频谱包络;
合成子单元,用于利用各帧复数频谱包络以及结合预测的基频值,恢复出各帧的波形,并通过对所有帧波形的加窗叠加,得到最终的合成语音。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽科大讯飞信息科技股份有限公司,未经安徽科大讯飞信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910222899.0/1.html,转载请声明来源钻瓜专利网。