[发明专利]用于生成语音谱的方法有效
申请号: | 200610135662.5 | 申请日: | 2006-10-20 |
公开(公告)号: | CN101165776A | 公开(公告)日: | 2008-04-23 |
发明(设计)人: | 曹振海;祖漪清 | 申请(专利权)人: | 摩托罗拉公司 |
主分类号: | G10L13/00 | 分类号: | G10L13/00;G10L13/02;G10L13/04;G10L15/08;G10L15/14 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 | 代理人: | 康建忠 |
地址: | 美国伊*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 生成 语音 方法 | ||
技术领域
本发明通常涉及一种语音合成。具体来说,但并不是排他的,本发明涉及使用与语音识别系统关联的、诸如隐马尔可夫模型(HMM)状态的模型状态来提供合成的语音反馈。
背景技术
许多语音识别系统将输入言语匹配于存储在数据库中的声学模型。其后,匹配的声学模型与词典数据库中的条目关联,从而完成文字和语句识别。声学模型通常包括隐马尔可夫模型(HMM)。HMM是统计描述,包括均值和方差矢量,其描述诸如文字和音素的语音单元。其后,HMM模式匹配用于确定语音识别数据库中的声学模型是否匹配于输入言语。HMM通常是基于包括被称为高斯混合的一些复高斯概率分布函数(PDF)的概率函数的。因此,HMM模式匹配可包括匹配高斯混合的处理。
通常将语音识别系统分类为与扬声器无关的或与扬声器相关的。扬声器无关系统被设计为识别许多扬声器的语音;而扬声器相关系统被训练为识别一个扬声器或仅少量扬声器的语音。扬声器无关系统通常包括包含从多个训练扬声器的语音得到的HMM的声学数据库。从训练扬声器的语音得到的HMM期望表示在较大的一组扬声器中发现的语音模式。这样的系统通常比扬声器相关系统的精度低,因为必须在语音模型中进行折衷以容纳大量语音属性,并且扬声器无关系统没有被调谐到任意特定扬声器的特有语音属性上。
扬声器相关系统被调谐为识别特定语音模式和各个扬声器的特有语音属性。通常扬声器在训练程序期间将包括各种语音模式的脚本读入系统。其后,训练语音与脚本进行调准(align),从而系统可调谐到扬声器的特有语音属性,因此,系统将在语音识别期间更精确的识别扬声器的语音。然而,在许多人可能需要使用特定语音识别系统的情况下,扬声器相关系统通常是不期望的。例如,扬声器无关语音识别系统可以是在诸如移动电话的电子设备中是优选的,以使多个用户能发布口头命令,从而呼叫特定电话号码,或指示其后由电话识别的口语消息。
存在用于改进扬声器无关语音识别系统的性能的各种技术。例如,在线扬声器适配技术使扬声器无关声学模型能够在用于特定个人的语音特性期间被调谐。在使用期间的在线扬声器适配可与离线扬声器适配对照,例如扬声器相关系统的上述训练处理,其中,用户将预先定义的脚本写入系统,从而在使用之前训练系统来识别其语音。
然而,在运行在移动电话中的语音识别系统的上述示例中,因为用户可使用仅用于非常简短的周期的电话的语音识别特征,例如发布短的口头命令或指示单个短文本消息,所以在线扬声器视频可能是无效的。在这样的情况下,在线扬声器适配处理在完成识别任务之前可能没有时间进行收敛。因此,在线扬声器适配处理没有改进移动电话的语音识别系统。此外,诸如交通和人群噪声的、通常与移动电话关联的噪声背景环境可使得在线扬声器适配处理难以收敛。
用于改善扬声器无关语音识别系统的另一技术涉及听觉反馈处理,其中,用户可听见由语音识别系统识别的说出的文字或短语的合成的语音回放。因此,用户能够立即得知系统是否已经精确地接收并识别语音输入。这些听觉反馈处理通常涉及将用于语音识别的隐马尔可夫模型(HMM)转换为可在扬声器上播放的合成语音谱。然而,为了通过使用诸如移动电话的最紧致的电子设备的有限处理和存储能力来有效地进行工作,听觉反馈处理需要高效且低复杂性的算法。
发明内容
根据一方面,本发明是一种用于从输入文字生成语音谱的方法。该方法包括:将与输入文字关联的音素的长度与多个模型状态相调准。其后,通过为所述多个模型状态中的每一状态从多混合高斯密度模型状态中选择混合来生成状态序列。接下来,通过使用状态序列为输入文字生成语音参数序列。其后,将语音参数序列转换为语音谱。
因此,本发明的实施例用于通过启用涉及输入文字的有效音频反馈来改进语音识别系统的值和语音识别精度。本发明的实施例例如可结合到各种类型的语音识别系统中,并且在结合有语音识别能力的、诸如扬声器无关移动电话或个人数字助理(PDA)的手持电子设备中尤其有用。高效算法的使用节约了手持电子设备的有限的电源、存储器和处理器资源。
附图说明
为了容易理解本发明并将其付诸实践效果,现将对参照附图示出的示例性实施例进行描述,其中,在所有的各个示图中,相同的标号指的是相同或功能相似的部件。根据本发明,以下的附图和详细描述被合并到此并形成说明书的一部分,并用于进一步示出实施例并解释各种原理和优点,其中:
图1是示出根据本发明的一些实施例的用于从输入文字生成语音谱的方法的复合流程图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于摩托罗拉公司,未经摩托罗拉公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200610135662.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种红外探测的方法以及更新阀值的方法
- 下一篇:直发器