[发明专利]语音识别装置和方法无效
申请号: | 200710127193.7 | 申请日: | 2007-07-04 |
公开(公告)号: | CN101101751A | 公开(公告)日: | 2008-01-09 |
发明(设计)人: | 酒井优;田中信一 | 申请(专利权)人: | 株式会社东芝 |
主分类号: | G10L15/14 | 分类号: | G10L15/14 |
代理公司: | 永新专利商标代理有限公司 | 代理人: | 王英 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 装置 方法 | ||
技术领域
本发明涉及一种语音识别方法,其利用HMM(隐马尔可夫模型)对声音特征进行建模,并且将其与语音特征矢量序列进行对照。
背景技术
作为一种现有技术中的语音识别方法,广泛地使用一种如Yukinori Takubo等人在2004年的文章“Science of languages 2”(Voice,Iwanami Shoten)(非专利文件1)中所描述的方法,其利用HMM对声音特征进行建模,并且将其与语音特征矢量序列进行比较,所述语音特征矢量序列表示具有特定时间宽度的每个帧的语音特征。在该语音识别方法中,通过待识别的多种类型中的每一类型的HMM对声音特征进行建模,并且将其与语音特征矢量序列进行对照以找到语音特征矢量序列的具有最高输出概率的HMM,并且将分配给该HMM的类型作为识别结果输出。
作为一种现有的有效地减少输出概率的计算次数的方法,存在一种基于束搜索(beam search)的方法(例如,Masaki Ida,SeiichiNakagawa(1996),“Comparison between a beam search method and A*searching method in voice recognition”,The institute of Electronics,Information and Communication Engineers,Technical Report of“Voice”SP96-12)(非专利文件2),以及一种基于基准帧的方法(例如,日本专利No.3251480)(专利文件1)。
然而,输出概率的计算次数不能仅仅通过简单地组合基于束搜索来减少输出概率的计算次数的方法以及基于基准帧来减少输出概率的计算次数的方法来有效地减少输出概率的计算次数。
发明内容
考虑到这一问题,本发明的一个目的是提供一种语音识别装置,其中,通过组合基于束搜索的方法以及基于基准帧的方法,能够有效地减少输出概率的计算次数,而不会对语音识别性能带来不利影响。
根据本发明的实施例,提供了一种使用HMM(隐马尔可夫模型)从所提供的语音信号中识别语音的装置,包括:声音处理单元,用于从语音信号获取具有恒定时间宽度的每个帧的语音特征矢量;基准帧存储单元,用于确定各个帧中之一作为基准帧,并且存储基准帧的帧编号;基准帧更新单元,用于当从基准帧起已经经过了任意数量的帧时,将基准帧重置并且更新为基准帧之后的所述任意数量的帧之后的帧,并且继续更新直到序列中的最后一帧;第一搜索范围选择单元,用于根据对于基准帧的束搜索来选择HMM的第一搜索范围;第一输出概率计算单元,用于计算在第一搜索范围内的各个转移路径中的语音特征矢量的第一输出概率;第一输出概率存储单元,用于与各个转移路径相结合地存储第一输出概率的计算结果;第一输出概率删除单元,用于当基准帧被更新时,删除与转移路径相结合而存储的所有的第一输出概率的计算结果;第二搜索范围选择单元,用于当基准帧未被更新时,根据对于从基准帧到将更新的新的基准帧的时间间隔之内的各个帧的束搜索,选择各个帧中的HMM的第二搜索范围;确定单元,用于确定在当前帧的第二搜索范围内的各个转移路径中的第一输出概率、或者与基准帧和当前帧之间存在的已经过的帧有关的第二输出概率是否与转移路径相结合;近似值设置单元,用于当存储了与基准帧和当前帧之间的已经过的帧有关的第一输出概率的计算结果或第二输出概率的计算结果时,将与基准帧和当前帧之间的已经经过的帧有关的第一输出概率的计算结果或第二输出概率的计算结果设置为转移路径的第二输出概率的近似值;第二输出概率计算单元,用于当未存储第一输出概率的计算结果以及从基准帧到当前帧之前紧挨着的帧的时间间隔中的第二输出概率的计算结果时,计算转移路径的当前帧或转移路径的基准帧中的语音特征矢量的第二输出概率;第二输出概率存储单元,用于与转移路径相结合地存储第二输出概率的计算结果;第二输出概率删除单元,用于当基准帧被更新时,删除与转移路径相结合而存储的所有第二输出概率的计算结果;前向概率计算单元,用于根据预先计算的前一帧的前向概率、当前帧的所有近似值以及所有第二输出概率来计算当前帧的前向概率;以及语音识别单元,用于计算各个HMM的前向概率直到最后一帧,然后提供分配给对于最后一帧提供最大前向概率的HMM的类型作为语音识别的结果。
根据本发明的实施例,通过同时使用基于束搜索的方法和基于基准帧的方法,可以在不对语音识别性能产生不利影响的情况下,有效地减少输出概率的计算次数。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社东芝,未经株式会社东芝许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710127193.7/2.html,转载请声明来源钻瓜专利网。