[发明专利]生成高质量话音的系统和方法有效

申请号：	200810003761.7	申请日：	2008-01-22
公开（公告）号：	CN101236743A	公开（公告）日：	2008-08-06
发明（设计）人：	立花隆辉;长野彻;西村雅史	申请（专利权）人：	国际商业机器公司
主分类号：	G10L13/02	分类号：	G10L13/02;G10L13/04;G06F17/00
代理公司：	北京市柳沈律师事务所	代理人：	黄小临
地址：	美国纽***	国省代码：	美国;US
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	生成质量话音系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及生成合成话音(synthetic speech)的技术，具体地涉及通过彼此连接多个音素段(phoneme segment)来生成合成话音的技术。

背景技术

此前，为了生成听者听起来自然的合成话音，已经使用了利用声波编辑与合成方法的话音合成技术。在此方法中，话音合成设备记录人的话音，并事先把话音的波形存储在数据库中作为话音波形数据。然后，话音合成设备根据输入的文本通过读取和连接多个话音波形数据块来生成合成话音。为了使这样合成的话音让听者听起来自然，最好连续改变话音的频率和音调(tone)。例如，当在话音波形数据块彼此连接的部分中话音的频率和音调变化很大时，所得到的合成话音听起来不自然。

然而，由于成本和时间的限制以及计算机存储容量和处理性能的限制，因此对事先记录的话音波形数据的类型也有限制。由于这个缘故，在某些情况下，由于在数据库中没有注册适合的数据块，因而使用替代的话音波形数据块替代适合的数据块来生成合成话音的某个部分。这可能使连接部分中的频率等等改变如此之大，以致于合成的话音听起来不自然。当输入文本的内容与事先被记录用于生成话音波形数据块的内容有很大的不同时，这种情况就更可能发生。

在此，作为技术参考资料，引用了日本专利申请公开出版物No.2003-131679以及Wael Hamza、Raimo Bakis和Ellen Eide，“RECONCILING PRONUNCIATION DIFFERENCES BETWEEN THEFRONT-END AND BACK-END IN THE IBM SPEECH SYNTHESISSYSTEM”(调解在IBM话音合成系统中前端和后端之间的发音差别)，Proceedings of ICSLP，韩国，济州，2004，pp.2561-2564。在日本专利申请公开出版物No.2003-131679中所揭示的话音输出设备通过把由书面语言的短语组成的文本转换为口头语言的文本，而后大声读出所得到的文本，来使文本更容易让听者理解。然而，这个设备只是为了把文本的表达从书面语言转换为口头语言，并且，这个转换是独立于与话音波形数据中关于频率变化等等的情况下进行的。因此，这个转换对合成话音自身的质量改善不起作用。在Wael Hamza、Raimo Bakis 和Ellen Eide“RECONCILINGPRONUNCIATION DIFFERENCES BETWEEN THE FRONT-END ANDBACK-END IN THE IBM SPEECH SYNTHESIS SYSTEM”(调解在IBM话音合成系统中前端和后端之间的发音差别)，Proceedings ofICSLP，韩国，济州，2004，pp.2561-2564所描述的技术中，预先存储发音不同但是以相同方式书写的多个音素(phoneme)，并在多个音素段中选择适合的音素段，以便能够改善合成话音的质量。然而，如果适合的音素段不被包括在事先存储的音素段之中，即使做了这样的选择，得到的合成话音听起来还是不自然的。

发明内容

关于这一点，本发明的目的在于提供一种能够解决上述问题的系统、方法和程序。通过组合权利要求范围内的独立权利要求来实现此目的。此外，从属权利要求限定了本发明的更有益的具体例子。

为了解决上述的问题，本发明的第一方面是提供一种用于生成合成话音的系统，该系统包括音素段存储部分、合成部分、计算部分、意译(paraphrase)存储部分、替换部分和判断部分。更确切地，音素段存储部分存储指示彼此不同的音素的声音的多个音素段数据块。合成部分通过以下步骤生成代表文本的合成话音的语音数据：接收输入的文本，读取与指示输入文本的发音的各个音素对应的音素段数据块，然后，彼此连接读出的音素段数据块。计算部分根据语音数据计算指示文本的合成话音的不自然度的得分。意译存储部分存储作为多个第一注释的意译的多个第二注释，并将第二注释和各个第一注释关联。替换部分搜索文本以得到与任何第一注释匹配的注释，然后，用与第一注释对应的第二注释来替换搜索到的注释。在计算出的得分小于预定的参考值的情况下，判断部分输出所生成的语音数据。相反，在计算出的得分等于或大于参考值的情况下，判断部分将文本输入到合成部分中，以便使合成部分进一步生成用于替换后文本的语音数据。除此系统之外，还提供了一种用此系统生成合成话音的方法，以及一种使信息处理设备用作此系统的程序。

注意，本发明的上述概述并未列举本发明所必需的全部特征。因此，本发明还包括这些特征的子组合。

附图说明

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于国际商业机器公司，未经国际商业机器公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/200810003761.7/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L13-00 语音合成；文本-语音合成系统
G10L13-02 .产生合成语音的方法；语音合成设备
G10L13-06 .语音合成设备中使用的基本语音单位；级联规则
G10L13-08 .文本分析或文本以外的语音合成参数的产生，例如语义图翻译为音素、韵律产生、重音或声调测定
G10L13-04 ..语音合成系统的零部件，例如合成设备结构或存储器管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]生成高质量话音的系统和方法有效

专利文献下载