[发明专利]嵌入式设备、双模态语音合成系统和方法有效
申请号: | 200710180123.8 | 申请日: | 2007-10-10 |
公开(公告)号: | CN101409072A | 公开(公告)日: | 2009-04-15 |
发明(设计)人: | 夏海荣 | 申请(专利权)人: | 松下电器产业株式会社 |
主分类号: | G10L13/00 | 分类号: | G10L13/00;G10L13/02;G10L13/04;G10L13/08;G10L11/00 |
代理公司: | 中科专利商标代理有限责任公司 | 代理人: | 王 玮 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 嵌入式 设备 双模 语音 合成 系统 方法 | ||
技术领域
本发明涉及嵌入式设备上任意文本到自然语音转换的语音合成 技术,更具体地,涉及一种嵌入式设备、一种双模态语音合成系统和 一种双模态语音合成方法,可以在满足用户对实时性和音质要求的基 础上,为用户提供高音质的语音合成输出。
背景技术
随着数字时代的来临,语音交互技术得到了越来越多的应用,从 文本到语音的语音合成技术作为语音交互的重要一环,受到了学术界 和产业界越来越多的重视。国内外很多公司、大学以及科研院所针对 语音合成技术做了广泛深入地研究,提出了基于预录制语音库的波形 拼接合成技术(参见参考文献[1][2])、基于语音参数的语音合成技 术(参见参考文献[3][4])以及基于人类语音产生机理的语音合成(参 见参考文献[5])等多种方法。除基于人类语音产生机理的语音合成方 法仅处在研究阶段外,其他两种方法均已有多年的研究历史并且在近 几年取得了较大的进展,实现了一些具体应用。
波形拼接语音合成技术需要预先按照合成单元,存储语音数据 (即语音库),在合成时,根据文本分析和韵律预测的结果,从预存的 语音数据中选择出合适的拼接单元,最后将所选的拼接单元按照时间 序列拼接在一起,从而得到最终的合成语音。这种方法的优点在于: 最终合成语音为真实的录音数据,结合准确的韵律预测模块,最终产 生的语音非常接近于自然语音。而缺点在于:要得到较好的合成结果, 需要事先存储大量的语音数据,合成结果与存储数据量的大小直接相 关,即当语音库大幅减小后,其音质也会大幅下降。目前基于大语音 库拼接技术的语音合成技术,以其自然的韵律和高质量的音质成为了 服务器版和桌面版语音合成的主流。
参数合成法(也被称为分析合成方法)把语音参数根据语音产生 的数学模型转换为语音数据。参数合成预先存储的不是语音数据本身, 而是提取出的语音参数,因此参数合成法对于存储空间的要求较波形 拼接要小得多。在合成阶段,系统将根据语音模型把语音参数转换为 语音数据。由于参数合成所采用的语音模型只能近似模拟人的发音机 理,因此参数合成法生成的语音音质较差。最近几年随着语音模型的 深入研究、语音信号处理技术以及统计技术的发展,参数合成法的音 质也得到了很大的提高。除了存储空间要求小以外,参数合成法相对 于波形拼接的另外一个优点是得到的合成语音连贯性较好。
而随着软、硬件技术的发展,目前嵌入式设备(如PDA、车载终 端和智能手机等)的计算能力和存储能力已经有了很大的改善,进而 使得改善用户界面的需求更加强烈。最近几年语音合成技术在嵌入式 设备上的应用已经成为了语音研究领域的热点。对于语音合成技术来 说,嵌入式设备相对于计算机有计算能力低、存储空间小等特点。根 据嵌入式设备的特点,已有研究者(参见参考文献[6])通过简化文本 分析和韵律预测模块以及减少音库中语音单元数量的方法,将拼接语 音合成技术移植到了嵌入式设备中,但是随之而来的是合成音质和自 然度的大幅度下降。参数合成应用在嵌入式设备(参见参考文献[7]) 中时,资源占用并不是问题,但在很多情况下其提供的合成语音并不 能让用户满意。如何在嵌入式设备现有的资源下获得高质量的合成语 音已成为了当前嵌入式语音合成领域最棘手的问题。
发明内容
本发明提出了一种在嵌入式设备上进行双模态语音合成的解决 方案来提高嵌入式设备上语音合成的性能。所谓双模态语音合成指的 是在嵌入式设备端的参数合成和在服务器端的大音库波形拼接合成, 而双模态之间的切换是系统根据实时性、对音质的要求和用户选择等 因素自动进行的。本发明的目的在于:在满足实时性的要求时,利用 服务器端的波形拼接合成,向嵌入式设备用户提供音质最好的合成语 音;当不满足实时性要求时,在满足音质要求的情况下,利用设备自 身的参数合成提供稍差的合成语音,这样就可以在各种情况下向用户 提供尽可能好的语音合成服务。
本发明既利用大音库拼接合成音质好的特点,又利用了参数合成 占用资源少速度快的特点,将两者结合在一起的双模态语音合成系统 可以在满足用户对实时性和音质要求的基础上,为用户提供高音质的 语音合成输出。与在嵌入式设备中单独使用参数合成、以及在嵌入式 设备中单独使用拼接合成相比,本发明提出的双模态语音合成系统在 嵌入式设备中具有更为明显的优势。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于松下电器产业株式会社,未经松下电器产业株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710180123.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种远射防暴枪
- 下一篇:用于透明聚酰亚胺共混物的脱模剂