[发明专利]一种融合引导概率的语音识别优化解码方法无效

申请号：	201210560745.4	申请日：	2012-12-20
公开（公告）号：	CN102982799A	公开（公告）日：	2013-03-20
发明（设计）人：	刘文举;杨占磊	申请（专利权）人：	中国科学院自动化研究所
主分类号：	G10L15/00	分类号：	G10L15/00;G10L15/06;G10L15/08
代理公司：	中科专利商标代理有限责任公司 11021	代理人：	宋焰琴
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种融合引导概率语音识别优化解码方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及语音识别领域，特别涉及语音识别声学建模和解码领域。

背景技术

目前，语音识别系统普遍采用隐马尔科夫模型作为声学建模及解码的基本模型。为考虑上下文发音对语音单元的影响，人们多采用三音子(triphone)模型改善系统识别率。但在考虑上下文后，模型数量及参数规模急剧增加。以汉语大词汇量连续语音识别系统为例，基本音素集中只包含191个声母及带调韵母，而相应的三音子模型总数超过20万。即使经过模型层、状态层及高斯成分层的参数共享，参数规模依然庞大。这不仅会带来参数训练不充分的问题，在识别阶段，也会引入过高的解码复杂度。充分发掘现有训练数据中的有用信息，无论对声学模型参数规模的压缩，还是对模型精度的提高从而改善语音识别系统性能，都具有很重要的意义。

2009年在美国约翰霍普金斯大学召开的研讨会，以新语言与新领域为应用背景，提出一种基于子空间高斯混合模型(Subspace Gaussian Mixture Models，Subspace GMM)的语音识别方法(参考文献1：D.Povey，“A tutorial-style introduction to subspace gaussian mixture models for speech recognition，”Tech.Rep.，Tech.Rep.MSR-TR-2009-111，Microsoft Research，2009.)。与传统隐马尔科夫模型(Hidden Markov Model，HMM)每一状态直接关联一个高斯混合模型(Gaussian Mixture Model，GMM)不同，子空间高斯混合模型直接关联一个向量，并通过此向量计算出所关联的GMM。由于向量维度远低于GMM中的参数规模，使得声学模型表示更加紧凑，在有限的训练数据上，可以取得较传统模型更好的识别效果。

除了压缩和改善声学建模外，也可以在解码阶段，改善路径扩展及剪枝机制，使最有希望的路径保留下来。传统的解码过程在计算路径得分时，只使用声学模型概率与语言模型概率，并将二者融合后的总概率作为扩展或剪枝的依据。

但是，在现有的解码技术中，由于不同模型可能会对同一语音段的打分相同，只依靠声学模型与语言模型，难以最大程度地刻画不同音素的差异。表现为解码过程中搜索路径的急剧膨胀，以及剪枝错误等。例如，在现有的Beam搜索技术中，解码器会在整个搜索空间无区别地计算每一条路径的概率，并保留与最大概率差值不超过Beam的路径，概率过小的路径被删除。这种传统解码方法不关注对局部空间的考察，每一条路径都是平等地进行扩展和剪枝。

实际上，对任何一帧语音特征，它都位于声学特征空间的一个局部。本发明希望利用待识别语音帧在声学特征空间中的位置信息，加强对此局部空间的搜索，强化此局部空间上的路径，并尽可能予以保留和扩展；对不属于此局部空间的路径，不予强化。在加强局部空间搜索后，经过此局部的路径在全部路径中所占的比例增加，从而使保留和扩展的路径中含有尽可能多的正确路径。与传统解码算法相比，本发明中所提算法把尽可能多的有希望的路径加入到路径集合，同时弱化潜力不大的路径。

发明内容

(一)要解决的技术问题

本发明的目的在于解决现有语音识别解码技术中缺乏利用待识别语音帧在声学特征空间中的位置信息、缺乏对部分局部空间强化搜索的不足。

(二)技术方案

为解决上述问题，本发明提出了一种融合引导概率的语音识别解码方法，其特征在于，包括下列步骤：

步骤a：训练通用背景模型，用于描述整个声学特征空间；

步骤b：计算语音帧在所述通用背景模型上的主高斯分量；

步骤c：利用声学模型对训练语料库进行强制切分，得到语音帧所属的音素；

步骤d：统计音素与所述通用背景模型中高斯分量的响应频次；

步骤e：根据所述响应频次计算得到引导概率；

步骤f：将引导概率融合到语音识别路径的总得分计算中，从而完成对语音识别路径得分的增强或者削弱。

(三)有益效果