[发明专利]一种基于迁移学习的带噪语音识别方法在审
申请号: | 201811454937.0 | 申请日: | 2018-11-30 |
公开(公告)号: | CN109616105A | 公开(公告)日: | 2019-04-12 |
发明(设计)人: | 潘成华;李参宏;万莉 | 申请(专利权)人: | 江苏网进科技股份有限公司 |
主分类号: | G10L15/20 | 分类号: | G10L15/20;G10L15/14;G10L15/02;G10L25/24 |
代理公司: | 苏州佳博知识产权代理事务所(普通合伙) 32342 | 代理人: | 唐毅 |
地址: | 215300 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 学生模型 语音识别 迁移 数据集 教师 学习 低信噪比 后验概率 声学建模 声学模型 信息迁移 语音环境 鲁棒性 有效地 准确率 语音 | ||
1.一种基于迁移学习的带噪语音识别方法,其特征在于,所述方法包括判断迁移学习是否适用于带噪语音的声学建模,若是,则建立教师模型和学生模型,并利用教师模型指导学生模型进行训练。
2.根据权利要求1所述的基于迁移学习的带噪语音识别方法,其特征在于,所述判断迁移学习是否适用于带噪语音的声学建模的步骤包括:
采用MFCC提取干净语音和带噪语音的特征并构成特征向量;
计算干净语音特征向量和带噪语音特征向量之间的最大均值差异MMD;
判断所述MMD是否小于阈值,若是,则适用于带噪语音的声学建模。
3.根据权利要求1所述的基于迁移学习的带噪语音识别方法,其特征在于,所述利用教师模型指导学生模型进行训练的方法包括:
采用MFCC提取干净语音和带噪语音的特征并构成特征向量;
生成GMM-HMM模型;
生成硬标签;
训练老师模型;
生成软标签;
训练学生模型。
4.根据权利要求2所述的基于迁移学习的带噪语音识别方法,其特征在于,所述采用MFCC提取干净语音和带噪语音的特征并构成特征向量的步骤包括:
对语音进行预加重、分帧和加窗处理后对每一个短时分析窗通过FFT得到对应的频谱,并通过滤波器组得到Mel频谱,并在Mel频谱上进行倒谱分析。
5.根据权利要求3所述的基于迁移学习的带噪语音识别方法,其特征在于,所述生成GMM-HMM模型的步骤包括:
把通过MFCC提取的干净语音特征用高斯混合模型区模拟,再把均值和方差输入到HMM的模型中,其中GMM-HMM用于生成强制对齐信息,即硬标签。
6.根据权利要求3所述的基于迁移学习的带噪语音识别方法,其特征在于,所述生成硬标签的步骤包括:
通过提取的干净语音的特征,训练一个GMM-HMM模型,然后通过帧级别的强制对齐得到每帧数据的硬标签。
7.根据权利要求3所述的基于迁移学习的带噪语音识别方法,其特征在于,所述生成软标签的步骤包括:
将提取的干净语音的特征作为老师模型的输入,利用前向算法计算其后验概率分布,即为软标签。
8.根据权利要求3所述的基于迁移学习的带噪语音识别方法,其特征在于,所述训练学生模型的步骤包括:
利用提取的干净语音的特征和带噪语音的特征的平行关系,将提取的带噪语音的特征和干净语音的软标签进行对齐,得到带噪语音的特征的软标签,再利用该特征和其软标签训练学生模型。
9.根据权利要求8所述的基于迁移学习的带噪语音识别方法,其特征在于,在学生模型训练的过程中,老师模型的参数保持不变,仅更新学生模型参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏网进科技股份有限公司,未经江苏网进科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811454937.0/1.html,转载请声明来源钻瓜专利网。