[发明专利]一种语音合成单元时长的预测方法及装置有效
申请号: | 201110167390.8 | 申请日: | 2011-06-21 |
公开(公告)号: | CN102231276A | 公开(公告)日: | 2011-11-02 |
发明(设计)人: | 王愈;李健 | 申请(专利权)人: | 北京捷通华声语音技术有限公司 |
主分类号: | G10L13/08 | 分类号: | G10L13/08 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
地址: | 100193 北京市海淀区东北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 合成 单元 预测 方法 装置 | ||
技术领域
本发明涉及信息处理技术领域,特别是涉及一种逐步线性回归的时长预测模型的训练方法及装置、一种语音合成单元时长的预测方法及装置。
背景技术
在语音合成系统(Text-to-Speech,TTS)中,语音合成单元时长的预测生成是必不可少的步骤,对合成语音的韵律听感有着至关重要的作用。
根据语音学与音系学理论,语音合成单元的时长等特性决定于其所处的上下文环境。对语音时长的预测,本质上是从上下文环境参数的取值空间到时长取值空间的映射。对此种映射关系的分析建模方法,现有的时长预测方法通常采用决策树-高斯混合模型,确定与之最接近的近似映射。
但是,现有的时长预测方法存在一个显著的缺点:采用决策树-高斯混合模型来预测时长,所述预测首先对上下文环境参数的取值空间进行粗分类,然后用单一的均值来刻画各子类空间,在这两个过程中都存在着过平均化。
下面以一个实例做说明:比如“们”字,在“我们”中和在“我们的”中两种情况下,相应的上下文环境都属于“词中”,只是在词中的位置不同。在基于决策树建立的决策树-高斯混合模型中,基于决策树的聚类因为受到树节点数目的限制,只能选择最显著的分类标准进行粗分类,有可能将这两种情况同归为“词中”这一类,从而抹煞了二者各自的个性;在此类别内,使用决策树-高斯混合模型建模,是用单一的均值来刻画整个子类,进一步抹煞了各样本具体的个性。
总之,需要本领域技术人员迫切解决的一个技术问题就是:如何提供一种时长预测模型的训练方法,以提高时长预测结果的准确性。
发明内容
本发明所要解决的技术问题是提供一种逐步线性回归的时长预测模型的训练方法及装置、一种语音合成单元时长的预测方法及装置,能够提高时长预测结果的准确性,使得从语音合成系统中合成出的语音具备真实的韵律感。
为了解决上述问题,本发明公开了一种逐步线性回归的时长预测模型的训练方法,包括:
建立初始的线性回归的时长预测模型;
在迭代所述线性回归的时长预测模型的过程中,通过评价每轮的时长预测模型选择上下文环境参数,最终得到最优时长预测模型。
优选的,所述在迭代所述线性回归的时长预测模型的过程中,通过评价每轮的时长预测模型选择上下文环境参数,最终得到最优时长预测模型的步骤,包括:
步骤1:选中常参数,并将其加入已选参数集;
步骤2:进行迭代,其中,在每轮迭代的过程中,在已选参数的基础上选出对进一步提升预测准确度作用最大的未选参数,并加入已选参数集;
步骤3:利用新的已选参数集,获得当前轮逐步线性回归的时长预测模型;
步骤4:判断当前轮逐步线性回归的时长预测模型是否最优,若是,则以当前逐步线性回归的时长预测模型作为逐步线性回归的最优时长预测模型,否则,返回执行步骤2。
优选的,所述判断当前轮逐步线性回归的时长预测模型是否最优的步骤,包括:
若当前轮逐步线性回归的时长预测模型相对于上一轮逐步线性回归的时长预测模型,二者预测误差样本方差的差小于等于特定阈值,则以当前轮逐步线性回归的时长预测模型作为逐步线性回归的最优时长预测模型;
若二者预测误差样本方差的差大于特定阈值,则返回执行步骤2。
优选的,所述线性回归的时长预测模型的表达式如下:
其中,
X为上下文环境参数矩阵,X的列数为上下文环境参数的数目,行数为语音合成单元的样本数目,X具体可以表述为:
Y为X的时长预测矩阵,Y具体可以表述为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京捷通华声语音技术有限公司,未经北京捷通华声语音技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110167390.8/2.html,转载请声明来源钻瓜专利网。