[发明专利]一种语音合成单元时长的预测方法及装置有效

申请号：	201110167390.8	申请日：	2011-06-21
公开（公告）号：	CN102231276A	公开（公告）日：	2011-11-02
发明（设计）人：	王愈;李健	申请（专利权）人：	北京捷通华声语音技术有限公司
主分类号：	G10L13/08	分类号：	G10L13/08
代理公司：	北京润泽恒知识产权代理有限公司 11319	代理人：	苏培华
地址：	100193 北京市海淀区东北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语音合成单元预测方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及信息处理技术领域，特别是涉及一种逐步线性回归的时长预测模型的训练方法及装置、一种语音合成单元时长的预测方法及装置。

背景技术

在语音合成系统(Text-to-Speech，TTS)中，语音合成单元时长的预测生成是必不可少的步骤，对合成语音的韵律听感有着至关重要的作用。

根据语音学与音系学理论，语音合成单元的时长等特性决定于其所处的上下文环境。对语音时长的预测，本质上是从上下文环境参数的取值空间到时长取值空间的映射。对此种映射关系的分析建模方法，现有的时长预测方法通常采用决策树-高斯混合模型，确定与之最接近的近似映射。

但是，现有的时长预测方法存在一个显著的缺点：采用决策树-高斯混合模型来预测时长，所述预测首先对上下文环境参数的取值空间进行粗分类，然后用单一的均值来刻画各子类空间，在这两个过程中都存在着过平均化。

下面以一个实例做说明：比如“们”字，在“我们”中和在“我们的”中两种情况下，相应的上下文环境都属于“词中”，只是在词中的位置不同。在基于决策树建立的决策树-高斯混合模型中，基于决策树的聚类因为受到树节点数目的限制，只能选择最显著的分类标准进行粗分类，有可能将这两种情况同归为“词中”这一类，从而抹煞了二者各自的个性；在此类别内，使用决策树-高斯混合模型建模，是用单一的均值来刻画整个子类，进一步抹煞了各样本具体的个性。

总之，需要本领域技术人员迫切解决的一个技术问题就是：如何提供一种时长预测模型的训练方法，以提高时长预测结果的准确性。

发明内容

本发明所要解决的技术问题是提供一种逐步线性回归的时长预测模型的训练方法及装置、一种语音合成单元时长的预测方法及装置，能够提高时长预测结果的准确性，使得从语音合成系统中合成出的语音具备真实的韵律感。

为了解决上述问题，本发明公开了一种逐步线性回归的时长预测模型的训练方法，包括：

建立初始的线性回归的时长预测模型；

在迭代所述线性回归的时长预测模型的过程中，通过评价每轮的时长预测模型选择上下文环境参数，最终得到最优时长预测模型。

优选的，所述在迭代所述线性回归的时长预测模型的过程中，通过评价每轮的时长预测模型选择上下文环境参数，最终得到最优时长预测模型的步骤，包括：

步骤1：选中常参数，并将其加入已选参数集；

步骤2：进行迭代，其中，在每轮迭代的过程中，在已选参数的基础上选出对进一步提升预测准确度作用最大的未选参数，并加入已选参数集；

步骤3：利用新的已选参数集，获得当前轮逐步线性回归的时长预测模型；

步骤4：判断当前轮逐步线性回归的时长预测模型是否最优，若是，则以当前逐步线性回归的时长预测模型作为逐步线性回归的最优时长预测模型，否则，返回执行步骤2。

优选的，所述判断当前轮逐步线性回归的时长预测模型是否最优的步骤，包括：