[发明专利]语音字体说话者以及韵律插值有效
申请号: | 201910916818.0 | 申请日: | 2015-02-23 |
公开(公告)号: | CN110718209B | 公开(公告)日: | 2023-07-18 |
发明(设计)人: | 栾剑;L·何;M·梁 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G10L13/08 | 分类号: | G10L13/08;G10L13/033 |
代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 贾丽萍 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 字体 说话 以及 韵律 | ||
提供了多语音字体插值。多语音字体插值引擎允许通过对来自现有的字体的说话者特性和韵律进行插值,而产生具有宽泛的多种说话者特性和/或韵律的计算机生成的话音。使用来自多语音字体的预测模型,多语音字体插值引擎预测对从待说出的文本中所获得的音素序列的说话者特性和/或韵律有影响的参数的值。对于每个参数,通过根据所预测的值的加权的插值而生成额外的参数值。利用经插值的参数值来修改现有的语音字体改变了话音的风格和/或情绪,同时保留了原始的语音的基本音质。多语音字体插值引擎允许说话者特性和/或韵律从一个语音字体移植到另一个语音字体,或者允许针对现有的语音字体而生成全新的说话者特性和/或韵律。
本申请是申请日为2015/02/23、申请号为201580010713.9的中国专利申请的分案申请。
背景技术
传统的文本话音转换(TTS)技术使用单个语音字体(voice font)。该语音字体是利用从一个配音员获得的录音语料库而训练的。所得到的语音字体强烈地与当录制语料库时该配音员所使用的韵律和特性相对应。从而,当被录音时,配音员必须使用在TTS语音中所期望的相同的风格和情绪。
随着TTS的使用变得越来越普遍,在各种应用场景中TTS语音的灵活性变得日益重要。例如,利用TTS来与用户进行通信的交互式应用应该给用户提供从能够表达丰富的情绪类型和说话风格的多种语音个性中进行选择的功能。随着TTS应用变得更加具有对话性和个性,TTS应用适配单个语音的说话风格和/或说话的情绪以与具有对话性的内容相匹配的功能也是令人期望的。
使得录音覆盖针对甚至单个语音的多个情绪和风格是昂贵的。获得令人期望的针对多个语音的多个录音不仅是昂贵的,而且是不切实际的。使用传统的语音适配技术来将情绪或说话风格从一个录音/语音字体移植至其它语音字体的尝试得出了低质量的语音字体,该低质量的语音字体不能够传达期望的情绪和/或风格,并且突出了原始的录音与配音员所使用的情绪和/或风格之间的紧密的关系。关于这些和其它考虑而实现了本发明。尽管已经讨论了相对具体的问题,但应当理解的是,在本文中所公开的实施例不应该限于解决在背景技术中所标识的具体的问题。
发明内容
提供了该发明内容以用简化的形式介绍在下文的具体实施方式中所进一步描述的概念的选择。该发明内容不旨在标识所要求保护的主题的关键特征,也不旨在用于限制所要求保护的主题的范围。
多语音字体插值引擎的实施例包括文本解析器、一个或多个特性预测器、一个或多个特性插值器、以及标准化器。多语音字体插值引擎将来自语音字体仓库的多个语音字体装载或以其他方式接收至存储器中。文本解析器将待说出的文本解析成音素序列,当该音素序列与语音字体相结合时,产生具有由语音字体所指定的声音、风格、和情绪的计算机生成的话音,并且提供对预测自然声学特征而言有用的其它信息。针对自然声学特征的特性预测器(例如,持续时间预测器、V/UV预测器、基本频率(f0)预测器、以及频谱预测器)使用对应的参数预测模型来预测针对源语音字体中的每一个字体的特性值。特性插值器(例如,持续时间插值器、V/UV插值器、基本频率(f0)插值器、以及频谱插值器)采用不同的权重集合以用于根据每个源语音字体的所选择的特性来对多语音字体的特性进行插值。
由多语音字体插值引擎所执行的插值方法使用由每个源语音字体所提供的特性预测模型来预测输入文本的成分(例如,音素序列中的每个音素或帧)的特性值。接下来,将一个或多个特性的相对权重因子分配至对多语音字体有贡献的每个源语音字体。在各种实施例中,将权重因子中的每个集合的和设置为一。多语音字体插值引擎通过对从源语音字体所预测的加权的特性值进行求和而对每个输入文本成分的最终持续时间进行插值,并且对音素序列的经插值的f0值进行标准化。经插值的持续时间值、经插值的频谱轨迹值、经插值的V/UV判定、以及经标准化的经插值的f0值可以在话音同步操作中使用和/或被保存为多语音字体以供以后使用,其中该话音同步操作使用所得到的具有所选择的说话者和/或韵律特性的多语音字体来生成可以由音频输出换能器所使用以产生话音的信号。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910916818.0/2.html,转载请声明来源钻瓜专利网。