[发明专利]从统计文本到语音合成系统输出的语音的统计增强有效
申请号: | 201280033177.0 | 申请日: | 2012-06-28 |
公开(公告)号: | CN103635960A | 公开(公告)日: | 2014-03-12 |
发明(设计)人: | A·索林;S·谢克特曼 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G10L13/033 | 分类号: | G10L13/033 |
代理公司: | 北京市中咨律师事务所 11247 | 代理人: | 于静;张亚非 |
地址: | 美国*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 统计 文本 语音 合成 系统 输出 增强 | ||
1.一种用于增强由统计文本到语音(TTS)系统合成的语音的方法,所述系统在声学特征向量空间中采用语音的参数表示,所述方法包括:
定义一系列参数纠正变换,所述纠正变换工作在所述声学特征向量空间中并依赖于一组增强参数;
定义一个特征向量或多个特征向量的失真指示符;
接收所述系统输出的特征向量;
通过以下操作生成所述纠正变换的实例:
计算所述失真指示符的参考值,所述参考值由发出所述特征向量的语音单位的统计模型产生;
计算所述失真指示符的实际值,所述实际值由发出所述特征向量的所述语音单位的所述统计模型所发出的特征向量产生;
根据所述失真指示符的所述参考值、所述失真指示符的所述实际值和所述参数纠正变换,计算增强参数值;
从所述一系列参数纠正变换获得与所述增强参数值对应的所述纠正变换的实例;以及
将所述纠正变换的所述实例应用于所述特征向量以提供增强的特征向量。
2.根据权利要求1的方法,其中所述声学特征向量是倒谱向量,所述失真指示符是衰减指示符,所述参数纠正变换是倒频率的参数纠正函数,并且应用所述纠正变换的所述实例是所述特征向量与所述纠正函数的逐分量相乘。
3.根据权利要求2的方法,其中针对每个发出的倒谱向量或每个语音单位而执行生成所述纠正变换的实例。
4.根据权利要求2的方法,其中计算衰减指示符的参考值的步骤在所述语音单位指定的发出概率分布上求平均值。
5.根据权利要求2的方法,其中基于从所述系统输出的合成倒谱向量而计算衰减指示符的实际值。
6.根据权利要求2的方法,其中在接收从所述系统输出的倒谱向量之前离线地执行生成所述纠正变换的实例,并且基于所述系统离线地生成并从所述语音单位发出的多个倒谱向量而计算所述衰减指示符的实际值。
7.根据权利要求1的方法,其中计算一组所述增强参数值包括根据所述失真指示符的所述参考值、所述失真指示符的所述实际值和参数纠正函数而最小化增强准则,以及表示参考失真指示符与由增强的合成向量产生的所述失真指示符的预测值之间的差异。
8.根据权利要求1的方法,其中所述统计TTS系统是采用高斯混合发出概率分布的基于隐马尔可夫模型(HMM)的TTS系统。
9.根据权利要求2的方法,其中所述参数纠正函数是指数函数,并且所述一组增强参数包括指数底数。
10.根据权利要求2的方法,其中所述参数纠正函数是逐段指数函数,并且所述一组增强参数包括个体指数的底数值和连接点。
11.根据权利要求2的方法,其中所述衰减指示符是逐分量平方的倒谱向量。
12.根据权利要求11的方法,包括通过对称正滤波器平滑衰减指示符分量。
13.根据权利要求7的方法,还包括根据发出所述倒谱向量的所述统计模型的属性改变一组增强参数值。
14.根据权利要求13的方法,其中所述属性包括产生所述统计模型的音素类别和用于统计模型训练的大多数语音帧的浊化分类。
15.一种用于增强由统计文本到语音(TTS)系统合成的语音的计算机程序产品,所述系统在声学特征向量空间中采用语音的参数表示,所述计算机程序产品包括:
计算机可读非瞬时性存储介质,其包含计算机可读程序代码,所述计算机可读程序代码包括:
可执行以便执行任一上述权利要求的步骤的计算机可读程序代码。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201280033177.0/1.html,转载请声明来源钻瓜专利网。