[发明专利]引导式说话人自适应语音合成的系统与方法及程序产品在审
申请号: | 201310127602.9 | 申请日: | 2013-04-12 |
公开(公告)号: | CN103778912A | 公开(公告)日: | 2014-05-07 |
发明(设计)人: | 林政源;林政贤;郭志忠 | 申请(专利权)人: | 财团法人工业技术研究院 |
主分类号: | G10L13/02 | 分类号: | G10L13/02 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 陈小雯 |
地址: | 中国台*** | 国省代码: | 中国台湾;71 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 引导 说话 自适应 语音 合成 系统 方法 程序 产品 | ||
技术领域
本公开涉及一种引导式说话人自适应(guided speaker adaptation)语音合成(speech synthesis)的系统与方法及计算机程序产品。
背景技术
建立说话人相关(speaker dependent)语音合成系统,不论是采用语料库(corpus based)或是统计模型为主(statistical model based)等,通常需要在专业的录音环境下,录制大量、稳定且说话特性一致的声音样本,例如收录大于2.5个小时,且声音样本控制在稳定一致的状态的声音样本。基于隐藏式马可夫模型(Hidden Markov Model,HMM)语音合成系统搭配说话人自适应技术可提供快速且稳定的个人化语音合成系统的建立方案。此技术通过一预先建立好的初始语音模型(全文中的“模式”也可称之为“模型”),新的说话人只要输入少于约10分钟的语料就可将一平均语音模型自适应成具有个人音色特质的语音模型。
基于HMM架构的语音合成系统,如图1所示,一开始输入一串文字,经过文本分析(Text Analysis)110可转成文字转语音(Text-To-Speech,TTS)系统可读的全标签(full label)格式的字串112,例如sil-P14+P41/A:4^0/B:0+4/C:1=14/D:1@6。接着进行三种模型决策树(decision tree)比对后,取得各个模型文档所对应的模型编号。此三种模型决策树为频谱模型决策树122、音长(duration)模型决策树124、以及音高(pitch)模型决策树126。每一模型决策树决定出约有数百到数千个HMM模型,也就是说,频谱模型决策树决定出约有数百到数千个HMM频谱模型、音高模型决策树决定出约有数百到数千个HMM音高模型。例如,前述全标签格式的字串sil-P14+P41/A:4^0/B:0+4/C:1=14/D:1@6转成音素与模型信息如下:
音素:P14;
状态1至5的频谱模型编号:123、89、22、232、12;
状态1至5的韵律模型编号:33、64、82、321、19。
之后,参考这些音素与模型信息来进行合成130。
语音合成技术不胜枚举。一般的说话人自适应策略是语句越多越好,针对每个人说话特性不同并没有设计最合适的自适应内容。在现有的技术或文献中,有些说话人自适应的算法从少量的语料去自适应全部的语音模型,并设计模型之间彼此共享自适应数据的行为。理论上,每一语音模型代表了不同的声音特性,所以过度共享不同特性的数据来进行说话人自适应,也会模糊化模型原本的特性而影响到合成的质量。
有的语音合成技术的说话人自适应策略是先区分说话人相关特征参数、以及说话人无关特征参数,再调整说话人相关特征后,整合之前的说话人特征无关参数后再进行合成。有的说话人自适应策略是利用类似语音转换技术来自适应原始音高与共振峰。有的说话人自适应语音合成进行说话人自适应的算法后,并无再探讨相关的自适应成果以及自适应语句推荐的部分。有的语音合成技术在设计语料库时,并无涉以覆盖率与声音失真度为准则的语句挑选方式。
有的语音合成技术如图2所示,在说话人自适应阶段210中结合高层描述讯息,例如是上下文相关韵律讯息,共同来自适应目标说话人的频谱、基频与时长模型。此技术着重在加入高层描述讯息来进行说话人自适应,对于说话人自适应后的模型没有进行任何评估或预测的动作。有的语音合成技术如图3所示,比较说话人自适应模型所合成的语音参数与真实语音的听感误差,并且采用基于生成参数听感误差最小化的准则回头调整原始说话人到目标说话人的模型转移矩阵。此技术是着重在改变说话人自适应算法的估计法则,对于说话人自适应后的模型没有进行任何评估或预测的动作。
上述或现有的语音合成技术中,有的仅由文字层面分析使用者应该输入的数据,没有考虑实际自适应之后的结果。有的默认(预设)的文稿无法在事前就知道每一使用者(客户端)最需要自适应的地方在何处。文字层面的分析通常基于目标语言的音素类别而定,而非针对初始语音模型的架构而定。语音模型的分类常会使用到大量的语言学知识,仅基于音素的语音合成是无法窥探整个语音模型的全貌。所以该默认文稿无法让语音模型间得到平均的语音数据来进行估计,容易出现前述模型特性模糊化的现象。
因此,如何设计一种对于说话人自适应后的模型进行评估或预测、考虑覆盖率与声音失真度为准则来挑选语句、以及可推荐自适应语句的语音合成技术,来提供好的声音质量与相似度,是一个重要的议题。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于财团法人工业技术研究院,未经财团法人工业技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310127602.9/2.html,转载请声明来源钻瓜专利网。