[发明专利]语音辨识装置及其方法无效
申请号: | 200810005139.X | 申请日: | 2008-01-22 |
公开(公告)号: | CN101494050A | 公开(公告)日: | 2009-07-29 |
发明(设计)人: | 黄良声;黄昭仁;沈家麟 | 申请(专利权)人: | 台达电子工业股份有限公司 |
主分类号: | G10L15/18 | 分类号: | G10L15/18;G10L15/02 |
代理公司: | 中科专利商标代理有限责任公司 | 代理人: | 汤保平 |
地址: | 台湾省*** | 国省代码: | 中国台湾;71 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 辨识 装置 及其 方法 | ||
技术领域
本发明是关于一种语音辨识装置及其方法,且特别是关于一种采用词描述语的方式,来辨识汉词的装置及其方法。
背景技术
随着电子科技的进步、无线通讯及网际网络的普及化,轻薄短小的可携式装置逐渐成为新一代信息存取的平台。但是,不一定每种设备都具有屏幕、键盘或者鼠标等人类惯用的输出入装置。因此,未来人类与智能型设备之间的人机接口也将通过最自然且方便的沟通媒介“语音”来进行控制。另外,在日常生活中,可以取得的多媒体影音信息越来越多,倘若播放多媒体影音信息的同时将语音信息转为文字,便能让使用者更快速地了解其中所传达的主题及概念。而无论是语音控制或者将语音转为文字,如何正确地辨识语音是相当重要的。
传统的汉字语音识别器主要包括前端处理器(front-end processor)、词汇数据库、声学模型(acoustic model)及语言模型(language model)。当接收到语音信号时,由前端处理器撷取语音信号的音框(voice frame),并找出音框中对语音辨识具有帮助的特征,例如:梅尔倒频谱系数(Mel-frequencycepstral coefficient,MFCC)。声音模型一般为隐藏式马可夫模型(hidden Markov model,HMM),以一个音素、音节或者词为单位,将上述特征与已建立的声音模型进行比对,以确定语音信号的音框是什么声音。接着,通过像查字典的方式,从词汇数据库中搜寻此声音可能对应到的一些文字。而语言模型通过机率与统计来判断所搜寻的文字何者于文句中的组合较为适当。如此一来,便能辨识出语音所对应的文字了。
美国第6163767号专利案提出一种用于识别孤立或者非相关汉字的语音识别方法和系统。图1绘示为已知语音识别系统的示意图。请参照图1,此语音识别系统包括基于汉字描述语言的语音识别器110、汉字描述语言的语法分析器120以及汉字产生器130。而此语音识别器110与上述传统的语音识别器的区别在于语音识别器110的语言模型更加上了一个基于汉字描述语言的语言模型。
此篇专利案先将汉字描述语言的语法规则建立于语言模型之中。当语音识别器110接收一汉字描述语,例如:抬头的抬“tai2 tou2 de5 tai2”,并逐字辨识出汉字描述语所包含的汉字时,基于汉字描述语言的语言模型对照所辨识的汉字描述语为属于何种语法规则,例如:抬头的抬“tai2 tou2 de5tai2”为属于“词+的+汉字”的语法规则,从而辨识出所输入的汉字为抬。
在汉语的语法里,词为一个以上的汉字所构成,句子为一个以上的词所构成,而段落为一个以上的句子所构成。若采用上述专利案的方式,逐字辨识使用者所输入的汉词或者文句时,则辨识过程便会花费过于冗长的时间。例如输入阳明山一汉词时,则可能要以太阳的阳、明天的明、以及高山的山作为汉字描述语来辨识出正确的汉字。
另外,在语音辨识技术的领域中,单词的辨识是相当重要的。现行的方法为将所有的词汇集起来建立词汇数据库,但是所建立的词汇数据库愈庞大,混淆度也会愈高。由于单词的辨识未有上下文的参考,所以如:“大道”、“大盗”、“打倒”等相近音的单词,或者词长较短的单词较易造成辨识错误。
发明内容
本发明的目的在于,提供一种语音辨识装置及其方法,其为采用词描述语的方式来辨识汉词,以增加汉词辨识的正确性及减少辨识过程所花费的时间。
本发明提出一种适于辨识汉词的语音辨识装置,其包括词汇模型、语音辨识模组、语言模型以及语法分析模组,其中上述汉词为由多个汉字所组成。词汇模型储存多组词汇,且各词汇为至少一字符所组成。语音辨识模组将符合词描述语语法结构的语音信号进行语音辨识处理,以产生数字形式的文字序列。此语音辨识处理为依据词描述语的一特征,从词汇模型中搜寻相关于词描述语的词汇,并且参考语言模型所提供的语法组合机率,产生适切的文字序列。在此过程之中,语言模型储存所搜寻的词汇之间的连接关系及词描述语的语法限制,提供上述的语法组合机率给语音辨识模组。而语法分析模组便分析文字序列的语法结构,并撷取出汉词。
本发明提出一种适于辨识汉词的语音辨识方法,而此汉词为多个汉字所组成。首先,接收符合词描述语语法结构的语音信号,并将语音信号进行语音辨识处理。在此,语音辨识处理为依据词描述语的一特征,从多组词汇中搜寻相关于词描述语的词汇,并且参考所搜寻的词汇之间的连接关系及词描述语的语法限制,而产生数字数据形式的文字序列。其中,各词汇为至少一字符所组成。接着,分析文字序列的语法,并撷取出汉词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于台达电子工业股份有限公司,未经台达电子工业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810005139.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种音频码率控制方法及系统
- 下一篇:色序法显示器中调整白平衡的装置及方法