[发明专利]一种语音合成方法和系统无效
申请号: | 201010223493.7 | 申请日: | 2010-06-30 |
公开(公告)号: | CN101894547A | 公开(公告)日: | 2010-11-24 |
发明(设计)人: | 李健;张连毅;武卫东 | 申请(专利权)人: | 北京捷通华声语音技术有限公司 |
主分类号: | G10L13/08 | 分类号: | G10L13/08;G10L15/14;G10L15/06;G10L19/00 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
地址: | 100193 北京市海淀区东北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 合成 方法 系统 | ||
技术领域
本发明涉及语音合成技术领域,特别是涉及一种语音合成方法和系统。
背景技术
语音合成技术,又称文语转换(TTS,Text To Speech)技术,其能将任意文字信息转化为标准流畅的语音朗读出来,
目前的语音合成中,主要有两种方法:
一是波形拼接方法;
其基本思想是,预先录制一个语音库,在合成时,根据文本分析和韵律预测的结果,直接从语音库中选择出合适的录音片段,最后将所选的录音片段拼接在一起。
由于使用了原始录音,合成语音的音质可以得到保证;但是,要得到较好的合成结果,语音库需要事先存储大量的语音数据,合成结果与存储数据量的大小直接相关,即当语音库大幅减小后,其音质也会大幅下降。
例如,有些语音库至少需要1G以上的存储空间,这对于智能手机、车载终端、PDA(个人数码助理,Personal Digital Assistant)等嵌入式设备来说,是非常大的开销。
二是参数合成方法。
参数合成方法首先根据语音数据统计出一个参数模型,在合成时,根据用户的输入文本,结合参数模型规划出参数,然后再将这些参数用合成器合成。
由于所述参数模型经参数提取、模型统计得到,相对于预存储语音数据而言,此方法可以将存储空间压缩下来;但是,在参数提取、模型统计过程中会损失一些语音信息,所以,会导致合成语音的音质下降。
总之,需要本领域技术人员迫切解决的一个技术问题就是:如何能够提供一种在嵌入式设备上使用的具有好的音质效果的语音合成方法。
发明内容
本发明所要解决的技术问题是提供一种语音合成方法和系统,能够应用于嵌入式设备,且在具有好的音质效果下有效降低数据存储空间占用。
为了解决上述问题,本发明公开了一种语音合成方法,包括:
接收用户输入的文本;
进行文本分析,获得与所述文本对应的音节序列,以及,该音节序列中每个音节的音节名称;
针对所述音节序列中每个音节,根据其音节名称及上下文环境,结合统计参数模型,规划得到相应的时长参数和基频参数;
针对所述音节序列中每个音节,根据其音节名称及上下文环境、时长参数及基频参数,从谱参数数据库中匹配得到对应的谱参数;
根据所述音节序列中每个音节的时长参数、基频参数和谱参数,利用合成器得到与所述音节序列对应的语音数据。
优选的,所述谱参数数据库为通过以下步骤建立的数据库:
从原始录音数据中提取谱参数;
根据音节名称、上下文环境以及时长参数、基频参数,将对应的谱参数保存至谱参数数据库。
优选的,在保存谱参数前,所述建立数据库的步骤还包括:
对所述谱参数进行矢量量化压缩,以压缩后的谱参数进行保存操作;
所述方法还包括:
利用与压缩算法相对应的解压缩算法对匹配得到的谱参数进行还原,以解压缩后的谱参数进行语音数据的合成操作。
优选的,所述保存步骤包括:
分别对时长参数、基频参数进行分类;
根据音节名称、上下文环境以及所属的时长参数类别、基频参数类别,将对应的谱参数保存至谱参数数据库。
优选的,所述文本分析步骤包括:
对所述文本进行分词操作;
将所述文本中的数字符号转换为文字;
依据分词结果,对数字符号转换后的文本进行韵律预测;
根据韵律预测结果,将文本转换为音节序列,以及,基于音节映射表,得到该音节序列中每个音节的音节名称。
本发明还公开了一种语音合成系统,包括:
接口模块,用于接收用户输入的文本;
文本分析模块,用于进行文本分析,获得与所述文本对应的音节序列,以及,该音节序列中每个音节的音节名称;
参数规划模块,用于针对所述音节序列中每个音节,根据其音节名称及上下文环境,结合统计参数模型,规划得到相应的时长参数和基频参数;
谱参数数据库,用于根据音节名称、上下文环境以及时长参数、基频参数,存储音节所对应的谱参数;
谱参数匹配模块,用于针对所述音节序列中每个音节,根据其音节名称及上下文环境、时长参数及基频参数,从所述谱参数数据库中匹配得到对应的谱参数;
合成模块,用于根据所述音节序列中每个音节的时长参数、基频参数和谱参数,利用合成器得到与所述音节序列对应的语音数据。
优选的,所述谱参数为经过矢量量化压缩的谱参数;
所述系统还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京捷通华声语音技术有限公司,未经北京捷通华声语音技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010223493.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:语音信号修复方法和装置
- 下一篇:一种混凝土泵车培训系统