[发明专利]语音辨识系统的词汇数据库建置方法及其搜寻比对方法无效
申请号: | 200710185709.3 | 申请日: | 2007-12-29 |
公开(公告)号: | CN101217035A | 公开(公告)日: | 2008-07-09 |
发明(设计)人: | 廖崇伯;陈淮琰 | 申请(专利权)人: | 无敌科技(西安)有限公司 |
主分类号: | G10L15/14 | 分类号: | G10L15/14;G10L15/06;G06F17/30 |
代理公司: | 西安智邦专利商标代理有限公司 | 代理人: | 商宇科 |
地址: | 710075陕西省*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 辨识 系统 词汇 数据库 建置 方法 及其 搜寻 | ||
技术领域
本发明涉及一种语音辨识系统的词汇数据库建置方法及其搜寻比对方法,特别是一种可支持多音字处理的词汇数据库建置方法及其更具效率的搜寻比对方法。
背景技术
习知语音辨识系统,并没有加入多音字的处理功能,导致使用者在进行语音输入时,必须念成其多音字的另一种发音才能辨识成功,例如,人名陈力行的「行」字,必须发音为「厂′」才能辨识成功,如使用者发音为「′」便无法正确辨识,又例如,乐团的「乐」字,必须发音为「`」才能辨识,若发音为「ㄩ`」亦无法正确辨识,而这样的语音输入方式与一般使用者的发音习惯有很大的差异。此外,语音辨识系统在进行辨识时,通常是利用维特比算法(Viterbi Algorithm)计算词汇中每个字所对应声学模型的机率值来进行辨识,而这样的演算也是语音辨识系统花费最大计算量的地方,因此,若是经常重复计算某些相同的字将导致系统不必要的计算量加重,也会造成系统辨识速度的下降,因此促成我们思考如何避免重复计算相同的字以降低整体的运算量。
发明内容
本发明的目的是提供一种语音辨识系统的词汇数据库建置方法及其搜寻比对方法,特别是一种可支持多音字处理的词汇数据库建置方法及其更具效率的搜寻比对方法,从而避免重复计算相同的字以降低整体的运算量的技术问题。
本发明的技术解决方案是:本发明为一种语音辨识系统的词汇数据库的建置方法,其特殊之处在于:该方法包含以下步骤:
1)、提供多音字数据:多音字数据包含复数个多音字及其发音方式;
2)、输入词汇;
3)、建立声学模型:将词汇和多音字数据进行比对,判断此词汇是否包含至少一个多音字,若是,则对于此词汇所包含的多音字的复数个发音方式分别建立相对应的复数个声学模型,若否,则对于此词汇建立单一对应的声学模型;
4)、储存此词汇及其对应的声学模型至词汇数据库。
一种利用上述的语音辨识系统的词汇数据库的搜寻比对方法,其特殊之处在于:该方法包括以下步骤:
1)、提供一词汇数据库:该词汇数据库包含复数个词汇,并且将其中前缀相同的词汇以相邻的方式进行排序,而且这些词汇是以一对一的方式对应于复数个声学模型;
2)、输入语音讯号;
3)、获取语音讯号的特征参数:其中特征参数是梅尔倒频谱系数;
4)、将步骤3)获取的特征参数与这些词汇的声学模型逐一比对:声学模型是对应于特征参数分别产生的机率值,其中,每一词汇是继承前一相邻词汇中相同发音字符所产生的机率值;
5)、通过这些词汇的机率值进行语音讯号的辨识。
上述声学模型是隐藏式马可夫模型。
上述机率值是利用维特比算法(Viterbi Algorithm)计算产生的。
本发明的语音辨识系统的词汇数据库建置方法及其搜寻比对方法,可建置一种支持多音字处理功能的词汇数据库,通过将所需词汇与词汇数据库的多音字数据比对,判断此词汇是否包含至少一个多音字,从而对于此词汇所包含的多音字的一个或复数个发音方式分别建立相对应的一个或复数个声学模型,使本发明所建置的词汇数据库,具有多音字辨识功能,使语音辨识系统更加人性化,也更贴近一般使用者的发音习惯,让使用者能够依照一般惯用的发音,而得到正确的辨识结果;通过获取的语音讯号的特征参数与这些词汇的声学模型逐一比对,根据声学模型机率值进行语音讯号的辨识,能够避免对相同的字的重复计算,提高整体运算量。
附图说明
图1是本发明的语音辨识系统的词汇数据库建置方法的流程图;
图2是本发明的语音辨识系统的词汇数据库建置方法的具体实施例的流程图;
图3是本发明的语音辨识系统的词汇数据库搜寻比对方法的流程图;
图4是本发明的语音辨识系统的词汇数据库搜寻比对方法的具体实施例的流程图。
具体实施方式
本发明的语音辨识系统主要是利用隐藏式马可夫模型(Hidden MarkovModel,HMM)的方法作辨识,它以机率模型来描述发音的现象,将一小段语音的发音过程,看成是一个马可夫模型中连续的状态转移;其中辨识过程所利用的语音特征参数为梅尔倒频谱系数(Mel-Frequency CepstrumCoefficients,MFCC),它除了考虑到人耳对不同频率的感受程度,更具有分离发音腔道模型与激发讯号的特性,使得我们在语音辨识时不会受到说话者的音量大小,或中文语音的五种声调(一、二、三、四声与轻声)的影响。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于无敌科技(西安)有限公司,未经无敌科技(西安)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710185709.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:铝合金材料表面仿不锈钢处理工艺
- 下一篇:一种钢材冶炼及成型系统及方法