[发明专利]一种面向语音识别的语音增强方法有效

申请号：	201911180882.3	申请日：	2019-11-27
公开（公告）号：	CN110970044B	公开（公告）日：	2022-06-07
发明（设计）人：	杨玉红;冯佳倩;蔡林君;涂卫平;艾浩军;高戈	申请（专利权）人：	武汉大学
主分类号：	G10L21/02	分类号：	G10L21/02;G10L25/30;G10L15/06;G10L15/22
代理公司：	武汉科皓知识产权代理事务所(特殊普通合伙) 42222	代理人：	严彦
地址：	430072 湖***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种面向语音识别增强方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种面向语音识别的语音增强方法，包括：步骤1，利用近端麦克风和远端麦克风录制得到的语音，对干净语音进行估计；步骤2，将步骤1中得到的估计语音作为参考语音信号，计算参考语音和待测降噪语音的包络相关系数，构造和语音识别相关的模型优化目标函数；步骤3，构建语音增强的深度神经网络模型，训练目标为估计语音，模型优化目标函数由步骤2得到；根据优化结果实现语音增强。本发明方法利用估计语音提高语音识别性能，并保证了人耳听觉感知质量，更适用于面向语音识别的语音增强。

技术领域

本发明属于声学技术领域，涉及一种语音增强方法，尤其涉及一种面向语音识别的语音增强方法。

背景技术

随着深度学习在图像领域的迅速发展，人们也开始在语音信号处理中广泛地应用深度神经网络，特别是基于神经网络的单通道语音增强。基于神经网络的语音增强方法充分利用了现有的语音数据，学习到了语音和噪声的统计特性，其对于复杂噪声环境下的鲁棒性更好，因而相比传统方法能得到更优的增强性能。

基于深度学习的语音增强将有噪声的语音映射为干净的语音。在训练阶段，常采用目标函数对模型参数进行优化。但是，改进后的语音模型优化准则与评价准则存在不一致之处。例如，在测量语言可懂度时，大多数评价度量是基于短时间客观可懂度(STOI)进行测量，而模型的优化大多是估计语音和干净语音的均方误差(MSE)。MSE通常在线性频率范围内定义，而人的听觉感知则遵循Mel-频率尺度。于是，2018年Szu-Wei Fu通过将STOI集成到模型优化中，提高了增强语音的可懂度。但在语音识别的实验中，其性能并没有提高。

在2017年，E Vincent等人在实验中指出，影响语音识别性能的可能原因是语音增强的目标。于是，E Vincent等人改进了语音增强的目标信号，不改变语音增强模型，结果发现确实提高了语音识别性能。但此时使用的模型优化目标函数仍然是MSE，没有与人耳听觉感知标准匹配。

为了在保证人耳听觉感知质量的情况下，又能同时提高语音识别性能，本发明提出了一种面向语音识别的语音增强。

发明内容

本发明在保证与人耳听觉感知标准高度匹配的情况下，又能提高语音识别性能，提出了一种面向语音识别的语音增强。

本发明所采用的技术方案是一种面向语音识别的语音增强方法，包括以下步骤：

步骤1，利用近端麦克风和远端麦克风录制得到的语音，对干净语音进行估计；

步骤2，将步骤1中得到的估计语音作为参考语音信号，计算参考语音和待测降噪语音的包络相关系数，构造和语音识别相关的模型优化目标函数；

步骤3，构建语音增强的深度神经网络模型，训练目标为估计语音，模型优化目标函数由步骤2得到；根据优化结果实现语音增强。

而且，步骤1的实现包括以下子步骤，

步骤1.1，对近端和远端麦克风录制的带噪语音分别做分帧、加窗和短时傅里叶变换，得到C(n,f)和X_i(n,f)，其中n为帧索引，f为频点索引，i为远端阵列麦克风的索引；

步骤1.2，估计干净语音为S_i(n,f)，计算每个时频单元的残差R_i(n,f)，公式如下，

R_i(n,f)＝X_i(n,f)-S_i(n,f)