[发明专利]一种快速可在线应用的声道长度归整方法有效
申请号: | 200810097981.0 | 申请日: | 2008-05-21 |
公开(公告)号: | CN101447182A | 公开(公告)日: | 2009-06-03 |
发明(设计)人: | 颜永红;刘赵杰;赵庆卫;潘接林 | 申请(专利权)人: | 中国科学院声学研究所;北京中科信利技术有限公司 |
主分类号: | G10L15/00 | 分类号: | G10L15/00;G10L15/06 |
代理公司: | 北京法思腾知识产权代理有限公司 | 代理人: | 杨小蓉 |
地址: | 100190北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 快速 在线 应用 声道 长度 归整 方法 | ||
技术领域
本发明涉及语音识别技术中一种说话人声学特征归整方法,更具体地说,本发 明涉及一种快速可在线应用的说话人声道长度归整方法。
背景技术
语音是人的自然属性之一。由于说话人发音器官的生理差异以及后天形成的行 为差异,在语音识别中说话人相关系统的性能要好于说话人无关系统。为了减小由 于说话人差异而引起的说话人无关系统性能的下降,声道长度归整是一种常用的有 效方法。声道长度归整是一种基于模型的特征归整技术,依赖于说话人声道长度归 整模型。文献,H.Wakita“Normalization of Vowels by Vocal-Tract Length and its Application to Vowel Identification,”ICASSP77(1977),首次提出应用去除说话人声 道长度引起共振峰频率漂移的思想来提高孤立元音的识别率。声道不同的位置和形 状决定了语音的产生,文献,E.Eide et al.“A Parametric Approach to Vocal Tract Length Normalization,”ICASSP96(1996),认为说话人声道最简单的模型是一个长度从声门 到唇的均匀管子,而且是一端开口一端封闭。他们还给出了不同归整函数对最后识 别性能的影响。基于这种均匀管道的模型,说话人声道长度的影响等于语音信号共 振峰的中心频率乘以声道长度的倒数。通常说话人声道长度从女生的13cm左右到男 生的18cm以上,这些变化对语音识别都是不利的。声道长度归整技术的思想就是找 到某个归整函数把训练和测试的数据都变换到一个与说话人声道长度无关的数据 域。基于管道模型的理论,共振峰随声道长度线性变化。大多数情况下归整函数只 依赖于一个简单的特征归整因子。具体实施就是寻找每个说话人最佳归整因子,然 后通过该归整因子对频率轴拉伸或压缩来消除说话人声道长度不同而带来的影响。 声道长度归整技术的原理很简单,但是有效的具体实施是相当困难的。最大的挑战 是如何从有限的数据中有效的估算出最佳的归整因子。传统相当多的方法是基于最 大似然估计的两遍解码的方法,通过对归整前声学特征进行一遍解码得到说话人说 话内容,用说话内容的文本信息和不同归整因子(通常是以一定步长遍历)归整后 的特征在声学模型上做强制性对齐,用似然值最大的归整因子作为该人的最佳归整 因子。这种方法能取得很不错的效果,但是需要两遍解码时间。文献,L.Lee et al.“Speaker Normalization using Efficient Frequency Warping Procedures,”ICASSP96 (1996),提出了一些较为成功的方法。对于训练数据,他们提出了一种跌代的方法, 用一半训练数据训练一个声学模型,拿这个声学模型估算另外一半数据的归整因子, 然后用归整后的数据在原来的声学模型上重新估算新的声学模型。测试的时提出了 一种文本无关的方法,选用了归整因子相关的GMM(Gaussian Mixture Model)模型, 省掉了第一遍解码时间。上述求归整因子方法都是说话人相关,文献,S.Wegmann et al.“Speaker Normalization on Conversational Telephone Speech”ICASSP96(1996),提 出了一种快速的句子相关的声道长度归整方法,让声道长度归整方法可以在半离线 下工作提供了可能。现在报道的方法都取得了很不错的识别效果,但是这些方法多 少有一定的局限性,都需要一定量先验数据,所以只能工作在离线或者半离线的方 式下,难以应用于实际的系统中。在实际的系统中,特别是在线的系统,说话人信 息和说话的内容是未知的,而且系统不能容许比较长的延时,现有的方法中难以找 到一个合适的解决方案,所以很难用上声道长度归整技术。
发明内容
本发明的目的在于:克服已有技术的缺陷,提供一种让声道长度归整技术能应 用在在线的语音识别系统中的快速可在线应用的声道长度归整方法。
本发明的目的是这样实现的:
本发明的快速可在线应用的声道长度归整方法,包括训练阶段和测试阶段,具 体步骤如下:
1)在训练阶段训练一个与声道长度无关的归整后的声学模型;
2)根据不同的归整因子对训练数据分类,训练多类GMM;
3)测试时分段在多类GMM打分,快速计算声道长度归整因子;
4)根据识别系统的实时性需求选择不同的段数,更新声道长度归整因子;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所;北京中科信利技术有限公司,未经中国科学院声学研究所;北京中科信利技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810097981.0/2.html,转载请声明来源钻瓜专利网。