[发明专利]语音合成系统和语音合成方法无效
申请号: | 200810096375.7 | 申请日: | 2008-03-28 |
公开(公告)号: | CN101276583A | 公开(公告)日: | 2008-10-01 |
发明(设计)人: | 森田真弘;笼岛岳彦 | 申请(专利权)人: | 株式会社东芝 |
主分类号: | G10L13/04 | 分类号: | G10L13/04;G10L13/06 |
代理公司: | 北京市中咨律师事务所 | 代理人: | 杨晓光;李峥 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 合成 系统 方法 | ||
发明背景
1.技术领域
本发明涉及从文本合成语音的语音合成系统和语音合成方法。
2.现有技术描述
文本至语音合成是从任意文本人工产生语音信号。文本至语音合成一般通过三阶段来实施,即语言处理单元、韵律处理单元和语音合成单元。
首先,语言处理单元对输入文本实施形态分析和语法分析等等。然后,韵律处理单元实施音调和语调处理,输出音位串(phoneme string)/韵律信息(韵律特征的信息(基频,时长或音位持续时间、功率等))。最后,语音合成单元根据音位串(phoneme string)/韵律信息合成语音信号。因此,在语音合成中所使用的语音合成方法必须能够产生具有任意韵律特征的任意音位符号串的合成语音。
通常地,作为这种语音合成方法,下面的语音单元选择型语音合成方法是已知的。首先,这种方法将输入音位串分割为多个合成单元(合成单元串)。针对输入音位串/韵律信息,该方法从预先为多个合成单元中的每个存储的大量语音单元中选择语音单元。然后,通过在合成单元之间连接所选择的语音单元,来合成语音。例如,在JP-A 2001-282278(KOKAI)中所公开的语音单元选择型语音合成方法中,将在语音合成时所产生的语音合成的变质程度表示为成本,并选择语音单元以使基于预定义成本函数所计算的成本减少。例如,这种方法使用成本来量化在编辑和连接语音单元时所引起的变形失真和连接失真,进而基于成本选择用于语音合成的语音单元串。然后,该方法基于所选择的语音单元串来产生合成语音。
在这种语音单元选择型语音合成方法中,为了改善声音质量,非常重要的是通过具有更多语音单元来准备各种语音环境和韵律特征的尽量多的变型。然而,在成本(或价钱)方面,难于将大量语音单元数据完全存储在具有高存取速度的昂贵存储介质(例如,内存器件)中。相反地,假如大量语音单元数据完全存储在具有相对低的成本(或价钱)和低存取速度的存储介质(例如,硬盘)中,则获得数据要耗费太多时间。这使得不可能实施实时处理。
语音单元数据的大小主要由波形数据所占据。在该情况下,有一种已知方法,该方法在内存器件中存储具有高使用频率的波形数据并在硬盘中存储其它波形数据,并且从开始连续地基于多个子成本来选择语音单元,所述子成本包括与存储波形数据的存储设备的存取速度相关联的成本(存取速度成本)。例如,在JP-A 2005-266010(KOKAI)中所公开的方法可能获得相当高的声音品质,因为其允许使用分布在内存和硬盘中的大量语音单元。此外,由于这种方法优先选择其波形数据存储在具有高存取速度的内存中的语音单元,因此相比于从硬盘获取全部波形的方法,该方法可以缩短产生合成语音所需要的时间。
尽管在JP-A 2005-266010(KOKAI)中所公开的方法一般地说可以平均缩短产生合成语音需要的时间,但可能的是,在特殊处理单元中可能仅仅选择其波形数据存储在硬盘中的语音单元。这使得不可能适当控制每个处理单元的产生时间的最坏值。在线合成语音并即时使用合成语音的语音合成应用通常重复这样的操作,即通过使用音频器件回放针对给定处理单元而产生的合成语音,并在回放期间产生针对下一处理单元的合成语音(并将它发送给音频器件)。使用这个操作,在线生成且回放合成语音。在这种应用中,如果在给定处理单元中合成语音的产生时间超过回放针对前面处理单元的合成语音所花费的时间,则在处理单元之间出现声音中断。这可能极大地使声音品质下降。因此,必需适当地控制每个处理单元产生合成语音需要的时间的最坏值(worst value)。此外,根据JP-A 2005-266010(KOKAI)中所公开的方法,超过需要地选择其波形数据存储在内存中的语音单元。这可能导致不能获得理想声音品质。
在涉及从具有不同数据获取速度的存储介质中为合成单元串获取语音单元数据的限制(例如,针对每个处理单元从硬盘获取数据的次数的上限值)下,可利用的是选择涉及合成单元串的理想语音单元串的方法。这种方法能够可靠地抑制每个处理单元的合成语音的产生时间的上限,并且能够在预定产生时间内产生尽可能高声音品质的合成语音。
通过考虑到上述限制的动态编程方法,有可能在上述限制下有效检索理想语音单元。然而,如果有许多语音单元,则仍然需要非常多的计算时间。因此,需要一种进一步加速处理的手段。具体地,相比于没有任何限制的检索,在一些限制下的检索需要更多的计算量,进而尤其需要加速该处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社东芝,未经株式会社东芝许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810096375.7/2.html,转载请声明来源钻瓜专利网。