[发明专利]一种面向语音识别的语音增强方法有效
申请号: | 201911180882.3 | 申请日: | 2019-11-27 |
公开(公告)号: | CN110970044B | 公开(公告)日: | 2022-06-07 |
发明(设计)人: | 杨玉红;冯佳倩;蔡林君;涂卫平;艾浩军;高戈 | 申请(专利权)人: | 武汉大学 |
主分类号: | G10L21/02 | 分类号: | G10L21/02;G10L25/30;G10L15/06;G10L15/22 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 严彦 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 语音 识别 增强 方法 | ||
本发明公开了一种面向语音识别的语音增强方法,包括:步骤1,利用近端麦克风和远端麦克风录制得到的语音,对干净语音进行估计;步骤2,将步骤1中得到的估计语音作为参考语音信号,计算参考语音和待测降噪语音的包络相关系数,构造和语音识别相关的模型优化目标函数;步骤3,构建语音增强的深度神经网络模型,训练目标为估计语音,模型优化目标函数由步骤2得到;根据优化结果实现语音增强。本发明方法利用估计语音提高语音识别性能,并保证了人耳听觉感知质量,更适用于面向语音识别的语音增强。
技术领域
本发明属于声学技术领域,涉及一种语音增强方法,尤其涉及一种面向语音识别的语音增强方法。
背景技术
随着深度学习在图像领域的迅速发展,人们也开始在语音信号处理中广泛地应用深度神经网络,特别是基于神经网络的单通道语音增强。基于神经网络的语音增强方法充分利用了现有的语音数据,学习到了语音和噪声的统计特性,其对于复杂噪声环境下的鲁棒性更好,因而相比传统方法能得到更优的增强性能。
基于深度学习的语音增强将有噪声的语音映射为干净的语音。在训练阶段,常采用目标函数对模型参数进行优化。但是,改进后的语音模型优化准则与评价准则存在不一致之处。例如,在测量语言可懂度时,大多数评价度量是基于短时间客观可懂度(STOI)进行测量,而模型的优化大多是估计语音和干净语音的均方误差(MSE)。MSE通常在线性频率范围内定义,而人的听觉感知则遵循Mel-频率尺度。于是,2018年Szu-Wei Fu通过将STOI集成到模型优化中,提高了增强语音的可懂度。但在语音识别的实验中,其性能并没有提高。
在2017年,E Vincent等人在实验中指出,影响语音识别性能的可能原因是语音增强的目标。于是,E Vincent等人改进了语音增强的目标信号,不改变语音增强模型,结果发现确实提高了语音识别性能。但此时使用的模型优化目标函数仍然是MSE,没有与人耳听觉感知标准匹配。
为了在保证人耳听觉感知质量的情况下,又能同时提高语音识别性能,本发明提出了一种面向语音识别的语音增强。
发明内容
本发明在保证与人耳听觉感知标准高度匹配的情况下,又能提高语音识别性能,提出了一种面向语音识别的语音增强。
本发明所采用的技术方案是一种面向语音识别的语音增强方法,包括以下步骤:
步骤1,利用近端麦克风和远端麦克风录制得到的语音,对干净语音进行估计;
步骤2,将步骤1中得到的估计语音作为参考语音信号,计算参考语音和待测降噪语音的包络相关系数,构造和语音识别相关的模型优化目标函数;
步骤3,构建语音增强的深度神经网络模型,训练目标为估计语音,模型优化目标函数由步骤2得到;根据优化结果实现语音增强。
而且,步骤1的实现包括以下子步骤,
步骤1.1,对近端和远端麦克风录制的带噪语音分别做分帧、加窗和短时傅里叶变换,得到C(n,f)和Xi(n,f),其中n为帧索引,f为频点索引,i为远端阵列麦克风的索引;
步骤1.2,估计干净语音为Si(n,f),计算每个时频单元的残差Ri(n,f),公式如下,
Ri(n,f)=Xi(n,f)-Si(n,f)
其中,设定帧搜索范围l,Lmin为向前搜索参数,Lmax为向后搜索参数,Gi(l,f)表示从近端麦克风信号到远端麦克风的传输函数,由最小化总残差推出,公式如下,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911180882.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高并发场景下即时通信消息传输方法
- 下一篇:一种深基坑监测预警系统