[发明专利]一种基于迁移学习的带噪语音识别方法在审
申请号: | 201811454937.0 | 申请日: | 2018-11-30 |
公开(公告)号: | CN109616105A | 公开(公告)日: | 2019-04-12 |
发明(设计)人: | 潘成华;李参宏;万莉 | 申请(专利权)人: | 江苏网进科技股份有限公司 |
主分类号: | G10L15/20 | 分类号: | G10L15/20;G10L15/14;G10L15/02;G10L25/24 |
代理公司: | 苏州佳博知识产权代理事务所(普通合伙) 32342 | 代理人: | 唐毅 |
地址: | 215300 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 学生模型 语音识别 迁移 数据集 教师 学习 低信噪比 后验概率 声学建模 声学模型 信息迁移 语音环境 鲁棒性 有效地 准确率 语音 | ||
本发明提出一种基于迁移学习的带噪语音识别方法,所述方法包括判断迁移学习是否适用于带噪语音的声学建模,若是,则建立教师模型和学生模型,并利用教师模型指导学生模型进行训练,本发明实施例提出的基于迁移学习的带噪语音识别方法,利用教师模型指导学生模型进行训练,能够有效地将教师模型中的后验概率信息迁移至学生模型中,从而提高声学模型在带噪数据集尤其是低信噪比数据集上的鲁棒性。使得系统在带噪语音环境下的识别准确率有了提升。
技术领域
本发明涉及信号处理领域,具体的涉及到一种基于迁移学习的带噪语音识别方法。
背景技术
随着语音识别技术的发展,噪声成为语音识别系统广泛实用化的关键因素。目前已有的解决噪声环境下语音识别鲁棒性的主要方法有:(1)采用自适应算法训练鲁棒性声学模型;(2)直接利用带噪语音数据训练声学模型;(3)先对带噪语音进行增强处理,然后利用处理后的数据训练声学模型。这三种方法都是在干净语音和带噪语音的平行数据已知的前提下进行的,且在方法上或将干净语音直接作为训练数据,或将其作为降噪处理的参考标准,并未最大限度地挖掘干净语音的知识。
中国专利CN201110258884.7一种基于MFCC远距离差值的鲁棒语音识别方法,采用远距离差值作为语音识别特征参数,但该专利不能将老师模型中的后验概率信息迁移至学生模型中,从而提高声学模型在带噪数据集上的鲁棒性。
发明内容
基于上述问题,本发明的目的旨在至少解决所述技术缺陷之一。提出一种基于迁移学习的带噪语音识别方法,利用教师模型指导学生模型进行训练,能够有效地将教师模型中的后验概率信息迁移至学生模型中,从而提高声学模型在带噪数据集尤其是低信噪比数据集上的鲁棒。为实现上述目的,本发明采用如下技术方案:
一种基于迁移学习的带噪语音识别方法,所述方法包括:
判断迁移学习是否适用于带噪语音的声学建模,若是,则建立教师模型和学生模型,并利用教师模型指导学生模型进行训练。
优选的,所述判断迁移学习是否适用于带噪语音的声学建模的步骤包括:
采用MFCC提取干净语音和带噪语音的特征并构成特征向量;
计算干净语音特征向量和带噪语音特征向量之间的最大均值差异MMD;
判断所述MMD是否小于阈值,若是,则适用于带噪语音的声学建模。
优选的,所述利用教师模型指导学生模型进行训练的方法包括:
采用MFCC提取干净语音和带噪语音的特征并构成特征向量;
生成GMM-HMM模型;
生成硬标签;
训练老师模型;
生成软标签;
训练学生模型。
优选的,所述采用MFCC提取干净语音和带噪语音的特征并构成特征向量的步骤包括:
对语音进行预加重、分帧和加窗处理后对每一个短时分析窗通过FFT得到对应的频谱,并通过滤波器组得到Mel频谱,并在Mel频谱上进行倒谱分析。
优选的,所述生成GMM-HMM模型的步骤包括:将采用MFCC提取的语音特征用高斯混合模型区模拟,再把均值和方差输入到HMM的模型中,其中GMM-HMM用于生成强制对齐信息,即硬标签。
优选的,所述生成硬标签的步骤包括:
通过提取的干净语音的特征,训练一个GMM-HMM模型,然后通过帧级别的强制对齐得到每帧数据的硬标签。
优选的,所述生成软标签的步骤包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏网进科技股份有限公司,未经江苏网进科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811454937.0/2.html,转载请声明来源钻瓜专利网。