[发明专利]一种基于多说话人模型的噪声与说话人联合补偿方法在审
申请号: | 201410706129.4 | 申请日: | 2014-11-26 |
公开(公告)号: | CN104485108A | 公开(公告)日: | 2015-04-01 |
发明(设计)人: | 吕勇 | 申请(专利权)人: | 河海大学 |
主分类号: | G10L17/04 | 分类号: | G10L17/04;G10L17/16;G10L17/20 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 李玉平 |
地址: | 211100 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 说话 模型 噪声 联合 补偿 方法 | ||
技术领域
本发明属于语音识别技术领域,具体涉及到用多类说话人语音训练生成多说话人模型,在测试环境下根据自适应语音选取与目标说话人最匹配的声学模型,并对其参数进行噪声补偿和说话人自适应,得到测试环境声学模型的模型自适应方法。
背景技术
语音识别系统的声学模型通常在实验室安静环境下用大量训练语音训练而成。在测试环境下,如果声学模型能够覆盖目标说话人的语音特性,则语音识别系统可以取得很高的识别率。然而在实际应用中,说话人的改变和环境噪声的影响总是不可避免的,因而需要根据测试环境下的语音及噪声特性,对声学模型的参数进行调整,使之与测试环境特征向量相匹配,提高语音识别系统的识别率。
在噪声鲁棒语音识别中,由噪声引起的非线性环境变换关系是确定的,因此可以根据非语音段提取的噪声参数,对声学模型的参数进行变换,一般可以取得很好的噪声补偿效果。在说话人自适应中,由说话人的改变引起的环境变换关系是未知的,难以用确定的函数关系进行描述,因而通常假设测试环境均值向量与训练环境均值向量之间存在线性变换关系,从测试环境下的少量自适应语音中估计线性变换参数,对声学模型的均值向量进行补偿。一般来说,说话人自适应算法也可以对其他语音变异性导致的环境失配进行补偿,比如用于噪声补偿。但由于线性假设与噪声引起的实际非线性环境变换关系相差甚远,因此难以取得很好的补偿效果。
一般来说,在实际应用中,环境噪声和说话人的变化是同时存在的,因而需要对噪声和说话人进行联合补偿,以减小环境失配的影响。而且,测试环境下用于调整模型参数的自适应数据是有限的,如果目标说话人的语音特性与预先训练的声学模型相差较大,则通过说话人自适应得到的声学模型也难以与测试语音相匹配。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种基于多说话人模型的噪声与说话人联合补偿方法;在训练阶段,首先根据说话人的语音特性,将训练语音划分为若干类,然后对每一类训练语音进行模型训练,得到一个GMM(Gaussian Mixture Model)模型和一组HMM(Hidden Markov Model)模型,多类训练语音的GMM模型和HMM模型组成多说话人模型;在测试阶段,通过噪声补偿后的GMM模型对目标说话人的语音特性进行识别,得到说话人信息,最后从多组声学模型中选取与目标说话人语音特性最接近的声学模型,并对其进行噪声补偿和说话人自适应,得到测试环境声学模型。
技术方案:一种基于多说话人模型的噪声与说话人联合补偿方法,包括训练阶段和测试阶段两部分,其中:
训练阶段的具体步骤包括:
(1)根据训练语音中各说话人的语音特性,对说话人进行聚类,根据聚类结果,划分训练语音,得到若干类说话人的训练语音;
(2)对每类说话人的训练语音进行GMM训练,得到该类说话人的GMM模型;
(3)对每类说话人的训练语音进行HMM训练,得到该类说话人每个语音单元的HMM模型(声学模型),每类说话人语音的模型包括一个GMM模型和一组声学模型,GMM模型用于识别说话人,HMM模型用于语音识别;
测试阶段的具体步骤包括:
(4)从目标说话人的训练语音的非语音段提取噪声的参数,包括均值向量和协方差矩阵;
(5)根据估得的噪声参数,对每个GMM的均值和方差进行变换,使之与测试环境相匹配;
(6)用噪声补偿后的GMM对测试环境下目标说话人的自适应语音进行识别,判断其与哪类说话人的语音特性最接近,记录类序号,作为说话人选择的结果;
(7)根据类序号,从多说话人模型中选取与目标说话人语音特性最接近的一组HMM模型,并根据噪声参数对其每个高斯单元的均值和方差进行变换,完成噪声补偿过程;
(8)根据目标说话人的自适应语音对选取的HMM模型组的参数进行说话人自适应,进一步调整其参数,使之与测试语音相匹配,得到测试环境声学模型。
在目标说话人类别的选择中,用与语音单元无关的每类说话人GMM取代各个语音单元的HMM进行识别,无需对所有类声学模型的HMM进行噪声补偿,可以显著减小计算量,提高说话人选取速度。
本发明采用上述技术方案,具有以下有益效果:在本发明的声学模型参数补偿中,分别通过多说话人模型预测,噪声补偿和目标说话人自适应三个模块对声学模型每个HMM的参数进行调整,使之与含噪测试语音更好地匹配,因而可以显著提高环境噪声、说话人的改变等多种环境失配因素共同存在时模型自适应的准确性,增强语音识别系统对实际环境的鲁棒性。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410706129.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:包括至少一个粘合层的装置和形成粘合层的方法
- 下一篇:智能穿戴设备