[发明专利]一种基于迁移学习的带噪语音识别方法在审

专利信息
申请号: 201811454937.0 申请日: 2018-11-30
公开(公告)号: CN109616105A 公开(公告)日: 2019-04-12
发明(设计)人: 潘成华;李参宏;万莉 申请(专利权)人: 江苏网进科技股份有限公司
主分类号: G10L15/20 分类号: G10L15/20;G10L15/14;G10L15/02;G10L25/24
代理公司: 苏州佳博知识产权代理事务所(普通合伙) 32342 代理人: 唐毅
地址: 215300 江苏省*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 学生模型 语音识别 迁移 数据集 教师 学习 低信噪比 后验概率 声学建模 声学模型 信息迁移 语音环境 鲁棒性 有效地 准确率 语音
【权利要求书】:

1.一种基于迁移学习的带噪语音识别方法,其特征在于,所述方法包括判断迁移学习是否适用于带噪语音的声学建模,若是,则建立教师模型和学生模型,并利用教师模型指导学生模型进行训练。

2.根据权利要求1所述的基于迁移学习的带噪语音识别方法,其特征在于,所述判断迁移学习是否适用于带噪语音的声学建模的步骤包括:

采用MFCC提取干净语音和带噪语音的特征并构成特征向量;

计算干净语音特征向量和带噪语音特征向量之间的最大均值差异MMD;

判断所述MMD是否小于阈值,若是,则适用于带噪语音的声学建模。

3.根据权利要求1所述的基于迁移学习的带噪语音识别方法,其特征在于,所述利用教师模型指导学生模型进行训练的方法包括:

采用MFCC提取干净语音和带噪语音的特征并构成特征向量;

生成GMM-HMM模型;

生成硬标签;

训练老师模型;

生成软标签;

训练学生模型。

4.根据权利要求2所述的基于迁移学习的带噪语音识别方法,其特征在于,所述采用MFCC提取干净语音和带噪语音的特征并构成特征向量的步骤包括:

对语音进行预加重、分帧和加窗处理后对每一个短时分析窗通过FFT得到对应的频谱,并通过滤波器组得到Mel频谱,并在Mel频谱上进行倒谱分析。

5.根据权利要求3所述的基于迁移学习的带噪语音识别方法,其特征在于,所述生成GMM-HMM模型的步骤包括:

把通过MFCC提取的干净语音特征用高斯混合模型区模拟,再把均值和方差输入到HMM的模型中,其中GMM-HMM用于生成强制对齐信息,即硬标签。

6.根据权利要求3所述的基于迁移学习的带噪语音识别方法,其特征在于,所述生成硬标签的步骤包括:

通过提取的干净语音的特征,训练一个GMM-HMM模型,然后通过帧级别的强制对齐得到每帧数据的硬标签。

7.根据权利要求3所述的基于迁移学习的带噪语音识别方法,其特征在于,所述生成软标签的步骤包括:

将提取的干净语音的特征作为老师模型的输入,利用前向算法计算其后验概率分布,即为软标签。

8.根据权利要求3所述的基于迁移学习的带噪语音识别方法,其特征在于,所述训练学生模型的步骤包括:

利用提取的干净语音的特征和带噪语音的特征的平行关系,将提取的带噪语音的特征和干净语音的软标签进行对齐,得到带噪语音的特征的软标签,再利用该特征和其软标签训练学生模型。

9.根据权利要求8所述的基于迁移学习的带噪语音识别方法,其特征在于,在学生模型训练的过程中,老师模型的参数保持不变,仅更新学生模型参数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏网进科技股份有限公司,未经江苏网进科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811454937.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top