[发明专利]语音字体说话者以及韵律插值有效
申请号: | 201580010713.9 | 申请日: | 2015-02-23 |
公开(公告)号: | CN106062867B | 公开(公告)日: | 2019-10-15 |
发明(设计)人: | 栾剑;L·何;M·梁 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G10L13/08 | 分类号: | G10L13/08;G10L13/033 |
代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 王英;刘瑜 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 提供了多语音字体插值。多语音字体插值引擎允许通过对来自现有的字体的说话者特性和韵律进行插值,而产生具有宽泛的多种说话者特性和/或韵律的计算机生成的话音。使用来自多语音字体的预测模型,多语音字体插值引擎预测对从待说出的文本中所获得的音素序列的说话者特性和/或韵律有影响的参数的值。对于每个参数,通过根据所预测的值的加权的插值而生成额外的参数值。利用经插值的参数值来修改现有的语音字体改变了话音的风格和/或情绪,同时保留了原始的语音的基本音质。多语音字体插值引擎允许说话者特性和/或韵律从一个语音字体移植到另一个语音字体,或者允许针对现有的语音字体而生成全新的说话者特性和/或韵律。 | ||
搜索关键词: | 语音 字体 说话 以及 韵律 | ||
【主权项】:
1.一种对计算设备进行控制以利用来自多个源语音字体的多语音字体来渲染计算机生成的话音的方法,所述多语音字体具有与所述多个源语音字体不同的特性,所述方法包括以下动作:装载来自语音字体存储的所述多个源语音字体;通过将持续时间权重分配至每个源语音字体、将基本频率f0权重分配至每个源语音字体、并且将频谱权重分配至每个源语音字体来将权重分配至每个源语音字体的特性;获得待被渲染成所述计算机生成的话音的文本并且将所述文本解析成音素的序列;使用由每个源语音字体所提供的相应的特性预测模型来预测所述文本的特性值;使用分配至每个源语音字体的所述特性的所述权重来合并所预测的特性值,以产生经插值的特性值,所述合并所预测的特性值包括:用所述所预测的特性值乘以针对每个源语音字体的所分配的权重,以产生加权的特性值,以及对来自每个源语音字体的所述加权的特性值进行求和,以产生经插值的特性值,并且还包括:使用所述持续时间权重来对每个音素的持续时间进行插值;使用所述频谱权重来对每个音素的浊音/清音概率值进行插值;基于该音素的所述浊音/清音概率值来对每个音素进行浊音/清音判定;使用所述f0权重来对每个音素的f0值进行插值;对每个音素的所述f0值进行标准化;以及使用所述频谱权重来对每个音素的频谱轨迹值进行插值;以及使用所述经插值的特性值而将所述文本渲染成计算机生成的话音;其中,所述对持续时间值进行插值包括:用所预测的持续时间值乘以针对每个源语音字体的所分配的持续时间权重,以产生加权的持续时间值;以及对针对每个音素的来自每个源语音字体的所述加权的持续时间值进行求和,以产生针对该音素的经插值的持续时间值;其中,所述对f0值进行插值包括:用所预测的f0值乘以针对每个源语音字体的所分配的f0权重,以产生加权的f0值;以及对针对每一帧的来自每个源语音字体的对应的加权的f0值进行求和,以产生针对该帧的经插值的f0值;其中,所述对浊音/清音概率进行插值包括:用所预测的浊音/清音概率值乘以针对每个源语音字体的所分配的频谱权重,以产生加权的浊音/清音概率值;以及对针对每个音素的来自每个源语音字体的所述加权的浊音/清音概率值进行求和,以产生针对该音素的经插值的浊音/清音概率值;其中,所述对频谱轨迹值进行插值包括:用所预测的频谱轨迹值乘以针对每个语音字体的所分配的频谱权重,以产生加权的频谱轨迹值;以及对针对每一帧的来自每个源语音字体的对应的加权的频谱轨迹值进行求和,以产生针对该帧的经插值的频谱轨迹值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201580010713.9/,转载请声明来源钻瓜专利网。