[发明专利]一种语音解码的方法及装置有效
申请号: | 201210226796.3 | 申请日: | 2012-06-30 |
公开(公告)号: | CN102737638A | 公开(公告)日: | 2012-10-17 |
发明(设计)人: | 钱胜 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G10L19/00 | 分类号: | G10L19/00 |
代理公司: | 深圳市威世博知识产权代理事务所(普通合伙) 44280 | 代理人: | 何青瓦;李庆波 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 解码 方法 装置 | ||
【技术领域】
本发明涉及语音识别技术,特别涉及一种语音解码的方法及装置。
【背景技术】
采用HMM(Hidden Markov Model,隐马尔科夫模型)模型进行语音识别已经是语音识别中的主流技术。HMM是一个对语音信号的时间序列结构建立的统计模型,它将语音信号看作一个数学上的双重随机过程:一个是用具有有限状态数的马尔科夫链来模拟语音信号统计特性变化的隐含的随机过程,另一个是与马尔科夫链的每一个状态相关联的观测序列的随即过程。在采用HMM模型进行语音解码时,随着解码过程的进行,解码路径的数量会以几何级数进行增长,因此,为了减少计算量并加快解码的速度,在进行语音解码的解码过程中,需要对解码路径进行裁剪,在现有技术中,路径裁剪时仅考虑当前解码路径在解码模型中的得分,这种方式在解码中没有考虑语音具有的短时平稳特征。
语音短时平稳特征指的是语音在很短的一个时间范围内具有相对的稳定性,表现为在很短的一个时间范围内,语音所处的状态应该是一致的。而HMM模型是一个统计模型,该模型无法自动对频繁进行状态跳转的路径进行惩罚,从而有可能出现频繁跳转的解码路径得到的分值反倒大于其他解码路径,从而使得正确的解码路径过早被裁剪掉,影响了语音解码的速度和精度。
【发明内容】
本发明所要解决的技术问题是提供一种语音解码方法及装置,以解决现有技术在进行语音解码时速度慢、精度低的技术缺陷。
本发明为解决技术问题而采用的技术方案是提供一种语音解码方法,包括:A.从待解码的语音特征流中获取当前语音特征帧;B.利用当前语音特征帧对当前的各条解码路径进行扩展;C.利用语音短时平稳特征从扩展后的各条解码路径中选取一条以上的解码路径作为当前的解码路径,并判断待解码的语音特征流是否已到达最后帧,如果是,则从当前的各条解码路径中确定最优解码路径作为对所述待解码的语音特征流进行解码的结果,否则将待解码的语音特征流的下一帧作为当前语音特征帧,返回所述步骤B。
根据本发明之一优选实施例,所述步骤B具体包括:根据已知的语音特征帧之间的状态跳转关系,确定当前的各条解码路径中最后一个状态节点代表的状态至当前语音特征帧之间所有可能的状态跳转,其中一种可能的状态跳转对应由当前语音特征帧的一个状态节点扩展而来的一条解码路径;根据声学模型和语言模型确定扩展后的各条解码路径的得分。
根据本发明之一优选实施例,利用语音短时平稳特征从扩展后的各条解码路径中选取一条以上的解码路径作为当前的解码路径的步骤具体包括:从扩展后的各条解码路径中确定违背语音短时平稳特征的解码路径;降低所述违背语音短时平稳特征的解码路径的得分;根据各条解码路径的得分选取一条以上的解码路径作为当前的解码路径。
根据本发明之一优选实施例,确定违背语音短时平稳特征的解码路径的步骤具体包括:将扩展后的各条解码路径中相同状态的连续节点数低于限值的解码路径作为违背语音短时平稳特征的解码路径。
根据本发明之一优选实施例,根据各条解码路径的得分选取一条以上的解码路径作为当前的解码路径的步骤具体包括:从各条解码路径中选取得分最高的N条解码路径作为当前的解码路径,其中N为自然数;或者,将各条解码路径中得分与最高分之间差值大于设定值的解码路径剔除并将剩余解码路径作为当前的解码路径。
根据本发明之一优选实施例,所述步骤C中确定最优解码路径的步骤具体包括:将当前的各条解码路径中得分最高的解码路径作为最优解码路径。
本发明还提供了一种语音解码装置,包括:接收单元,用于从待解码的语音特征流中获取当前语音特征帧;扩展单元,用于利用当前语音特征帧对当前的各条解码路径进行扩展;选取单元,用于利用语音短时平稳特征从扩展后的各条解码路径中选取一条以上的解码路径作为当前的解码路径,并触发判断单元运行;判断单元,用于判断待解码的语音特征流是否已到达最后帧,如果是,则从当前的各条解码路径中确定最优解码路径作为对所述待解码的语音特征流进行解码的结果,否则将待解码的语音特征流的下一帧作为当前语音特征帧并触发所述扩展单元运行。
根据本发明之一优选实施例,所述扩展单元具体包括:路径扩展子单元,用于根据已知的语音特征帧之间的状态跳转关系,确定当前的各条解码路径中最后一个状态节点代表的状态至当前语音特征帧之间所有可能的状态跳转,其中一种可能的状态跳转对应当前语音特征帧的一个状态节点扩展而来的一条解码路径;得分确定子单元,用于根据声学模型和语言模型确定扩展后的各条解码路径的得分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210226796.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种聚氨酯合成革粘合装置
- 下一篇:一种再生革压榨装置