[发明专利]嵌入式设备、双模态语音合成系统和方法有效

申请号：	200710180123.8	申请日：	2007-10-10
公开（公告）号：	CN101409072A	公开（公告）日：	2009-04-15
发明（设计）人：	夏海荣	申请（专利权）人：	松下电器产业株式会社
主分类号：	G10L13/00	分类号：	G10L13/00;G10L13/02;G10L13/04;G10L13/08;G10L11/00
代理公司：	中科专利商标代理有限责任公司	代理人：	王玮
地址：	日本***	国省代码：	日本;JP
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	嵌入式设备双模语音合成系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及嵌入式设备上任意文本到自然语音转换的语音合成技术，更具体地，涉及一种嵌入式设备、一种双模态语音合成系统和一种双模态语音合成方法，可以在满足用户对实时性和音质要求的基础上，为用户提供高音质的语音合成输出。

背景技术

随着数字时代的来临，语音交互技术得到了越来越多的应用，从文本到语音的语音合成技术作为语音交互的重要一环，受到了学术界和产业界越来越多的重视。国内外很多公司、大学以及科研院所针对语音合成技术做了广泛深入地研究，提出了基于预录制语音库的波形拼接合成技术(参见参考文献[1][2])、基于语音参数的语音合成技术(参见参考文献[3][4])以及基于人类语音产生机理的语音合成(参见参考文献[5])等多种方法。除基于人类语音产生机理的语音合成方法仅处在研究阶段外，其他两种方法均已有多年的研究历史并且在近几年取得了较大的进展，实现了一些具体应用。

波形拼接语音合成技术需要预先按照合成单元，存储语音数据 (即语音库)，在合成时，根据文本分析和韵律预测的结果，从预存的语音数据中选择出合适的拼接单元，最后将所选的拼接单元按照时间序列拼接在一起，从而得到最终的合成语音。这种方法的优点在于：最终合成语音为真实的录音数据，结合准确的韵律预测模块，最终产生的语音非常接近于自然语音。而缺点在于：要得到较好的合成结果，需要事先存储大量的语音数据，合成结果与存储数据量的大小直接相关，即当语音库大幅减小后，其音质也会大幅下降。目前基于大语音库拼接技术的语音合成技术，以其自然的韵律和高质量的音质成为了服务器版和桌面版语音合成的主流。

参数合成法(也被称为分析合成方法)把语音参数根据语音产生的数学模型转换为语音数据。参数合成预先存储的不是语音数据本身，而是提取出的语音参数，因此参数合成法对于存储空间的要求较波形拼接要小得多。在合成阶段，系统将根据语音模型把语音参数转换为语音数据。由于参数合成所采用的语音模型只能近似模拟人的发音机理，因此参数合成法生成的语音音质较差。最近几年随着语音模型的深入研究、语音信号处理技术以及统计技术的发展，参数合成法的音质也得到了很大的提高。除了存储空间要求小以外，参数合成法相对于波形拼接的另外一个优点是得到的合成语音连贯性较好。

而随着软、硬件技术的发展，目前嵌入式设备(如PDA、车载终端和智能手机等)的计算能力和存储能力已经有了很大的改善，进而使得改善用户界面的需求更加强烈。最近几年语音合成技术在嵌入式设备上的应用已经成为了语音研究领域的热点。对于语音合成技术来说，嵌入式设备相对于计算机有计算能力低、存储空间小等特点。根据嵌入式设备的特点，已有研究者(参见参考文献[6])通过简化文本分析和韵律预测模块以及减少音库中语音单元数量的方法，将拼接语音合成技术移植到了嵌入式设备中，但是随之而来的是合成音质和自然度的大幅度下降。参数合成应用在嵌入式设备(参见参考文献[7]) 中时，资源占用并不是问题，但在很多情况下其提供的合成语音并不能让用户满意。如何在嵌入式设备现有的资源下获得高质量的合成语音已成为了当前嵌入式语音合成领域最棘手的问题。

发明内容

本发明提出了一种在嵌入式设备上进行双模态语音合成的解决方案来提高嵌入式设备上语音合成的性能。所谓双模态语音合成指的是在嵌入式设备端的参数合成和在服务器端的大音库波形拼接合成，而双模态之间的切换是系统根据实时性、对音质的要求和用户选择等因素自动进行的。本发明的目的在于：在满足实时性的要求时，利用服务器端的波形拼接合成，向嵌入式设备用户提供音质最好的合成语音；当不满足实时性要求时，在满足音质要求的情况下，利用设备自身的参数合成提供稍差的合成语音，这样就可以在各种情况下向用户提供尽可能好的语音合成服务。

本发明既利用大音库拼接合成音质好的特点，又利用了参数合成占用资源少速度快的特点，将两者结合在一起的双模态语音合成系统可以在满足用户对实时性和音质要求的基础上，为用户提供高音质的语音合成输出。与在嵌入式设备中单独使用参数合成、以及在嵌入式设备中单独使用拼接合成相比，本发明提出的双模态语音合成系统在嵌入式设备中具有更为明显的优势。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于松下电器产业株式会社，未经松下电器产业株式会社许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/200710180123.8/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L13-00 语音合成；文本-语音合成系统
G10L13-02 .产生合成语音的方法；语音合成设备
G10L13-06 .语音合成设备中使用的基本语音单位；级联规则
G10L13-08 .文本分析或文本以外的语音合成参数的产生，例如语义图翻译为音素、韵律产生、重音或声调测定
G10L13-04 ..语音合成系统的零部件，例如合成设备结构或存储器管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]嵌入式设备、双模态语音合成系统和方法有效

专利文献下载