[发明专利]语音合成装置和方法无效
申请号: | 200710104617.8 | 申请日: | 2007-05-18 |
公开(公告)号: | CN101075432A | 公开(公告)日: | 2007-11-21 |
发明(设计)人: | 笼岛岳彦 | 申请(专利权)人: | 株式会社东芝 |
主分类号: | G10L13/04 | 分类号: | G10L13/04 |
代理公司: | 北京市中咨律师事务所 | 代理人: | 杨晓光;李峥 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 合成 装置 方法 | ||
技术领域
本发明涉及一种语音合成装置和方法,其用于通过连接从诸如硬盘的大规模存储介质读取的语音单元数据来合成语音。
背景技术
文本语音合成可以从任意句子(文本数据)人工产生语音信号。例如,在JP-A(公开)08-254993(第4页和图1)中公开了此技术。由三个要素构成用以实现这样的文本语音合成的语音合成装置,即,语言处理单元、韵律处理单元,以及语音合成单元。
首先,在所述语言处理单元中,在语形学和句法上分析输入文本。接下来,在所述韵律处理单元中,处理经过分析的文本的重音和声调,并计算诸如音素序列、基频和音素片段持续时间的信息。最后,在所述语音合成单元中,通过基于(通过所述韵律处理单元计算得到的)基频和音素片段持续时间连接语音单元数据(特征参数和语音波形),来产生合成语音。在这种情况下,为作为语音连接单位的每个合成单位(例如,音素或音节)预先存储所述语音单元数据,以产生所述合成语音。
作为合成高质量语音的方法,预先存储大量语音单元数据,通过所述输入文本的韵律/音素环境从所存储的语音单元数据中选择适当的语音单元数据,并且通过修改和连接所选出的语音单元数据来产生合成语音。在JP-A(公开)2001-282278(第3页和图2)中公开了此方法。在此方法中,预先定义用以估计(通过修改和连接语音单元所产生的)合成语音的质量失真度的代价函数。通过从大量语音单元中选择具有最小代价函数的多个语音单元,能够实现高质量的合成语音。
在上述语音合成方法中,如果使用诸如RAM的昂贵的半导体存储器作为存储介质来存储大量的语音单元数据,成本会非常高。于是,常常使用诸如硬盘驱动器(HDD)的大容量存储介质。然而,在将语音单元数据存储于HDD的情况下,从HDD读取语音单元数据需要花很长的时间。于是,处理时间会变得很长,很难进行实时处理。
为了解决此问题,将HDD上的语音单元数据的部分拷贝存放在另一个存储器中,在容易访问该存储器上的语音单元的条件下,从所述存储器选择多个语音单元。于是,可以减少访问HDD的次数,并减少处理时间。JP-A(公开)2005-266010中公开了此技术。通过设计所述代价函数来实现此语音单元选择,其中,通过惩罚对来自HDD的语音单元的选择使所述代价函数的值变大。
在上述技术中,利用带惩罚的代价函数,使得难于选择HDD上的语音单元数据,并且减小了对HDD的访问次数。在这种情况下,即使HDD中存储了适于质量的语音单元,也常常选择存储在存储器中的另一个语音单元。于是,相比没有惩罚的代价函数,语音质量下降。此外,用以存储所述语音单元数据的部分拷贝的存储器是必需的,并且增加了硬件成本。
发明内容
本发明致力于一种语音合成装置和方法,其用以减小对大容量存储器的访问次数,并且不会降低语音质量,也无需准备另一个存储器。
根据本发明一个方面,提供了一种合成输入音素序列语音的装置,其包括:波形存储器,其被配置为存储多个语音单元波形;信息存储器,其被配置为对应地存储语音单元信息以及在所述波形存储器中存储的所述多个语音单元波形的每一个的地址;语音单元选择单元,其被配置为通过参考在所述信息存储器中存储的所述语音单元信息,选择对应于所述输入音素序列的语音单元序列;获取单元,其被配置为通过参考在所述信息存储器中存储的所述地址,从所述波形存储器获取对应于所述语音单元序列的各个语音单元的语音单元波形;以及语音单元连接单元,其被配置为通过连接由所述获取单元获取的所述语音单元波形来产生所述语音;其中,所述语音单元波形获取单元在一次访问期间从所述波形存储器的连续区域获取与包含在所述语音单元序列中的至少两个语音单元相对应的至少两个语音单元波形。
根据本发明另一个方面,提供了一种合成输入音素序列的语音的方法,其包括:在第一存储器中存储多个语音单元波形;在第二存储器中对应地存储语音单元信息以及所述多个语音单元波形的每一个的地址;通过参考在所述第二存储器中存储的所述语音单元信息,选择对应于所述输入音素序列的语音单元序列;通过参考在所述第二存储器中存储的所述地址,从所述第一存储器获取与所述语音单元序列的各个语音单元相对应的语音单元波形;以及通过连接所获取的所述语音单元波形来产生所述语音;其中,所述获取步骤包括:在一次访问期间,从所述第一存储器的连续区域获取与包含在所述语音单元序列中的至少两个语音单元相对应的至少两个语音单元波形。
附图说明
图1是根据第一实施例的语音合成装置的框图;
图2是根据第一实施例的语音合成装置的处理的流程图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社东芝,未经株式会社东芝许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710104617.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:抽油机专用非晶铁芯节能调容变压器
- 下一篇:汽车行驶信息记录装置