[发明专利]近距离交谈场景下双麦克风移动电话的实时语音降噪方法在审
申请号: | 201910945319.4 | 申请日: | 2019-09-30 |
公开(公告)号: | CN110660406A | 公开(公告)日: | 2020-01-07 |
发明(设计)人: | 谭可;闫永杰 | 申请(专利权)人: | 大象声科(深圳)科技有限公司 |
主分类号: | G10L21/0208 | 分类号: | G10L21/0208;G10L21/0216;G10L25/30 |
代理公司: | 44362 深圳快马专利商标事务所(普通合伙) | 代理人: | 赵亮;刘朗星 |
地址: | 518000 广东省深圳市南山区粤*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音信号 掩模 声学特征 近距离 主信道 递归 降噪 卷积 语音 场景 麦克风 背景干扰 波形信号 模拟语音 时间动态 实时语音 通话噪音 信道 噪声 噪音 网络 合成 说话 应用 | ||
1.近距离交谈场景下双麦克风移动电话的实时语音降噪方法,其特征在于,包括如下步骤:
S1接收主信道和辅信道中的带噪语音信号,其中包含语音和背景干扰噪声;
S2从所述带噪语音信号中提取原始声学特征;
S3将所述原始声学特征输入卷积递归网络CRN中以模拟语音的时间动态,并对其进行掩模估计,得到相敏掩模PSM;
S4将估计的所述相敏掩模PSM应用于所述主信道带噪语音信号以重新合成降噪语音的波形信号。
2.根据权利要求1所述的近距离交谈场景下双麦克风移动电话的实时语音降噪方法,其特征在于,将所述主信道和所述辅信道上的所述带噪语音信号的波形都分割成20毫秒的时间帧,相邻帧之间通过汉明窗口重叠10毫秒,随后对每个帧进行快速傅里叶变换,产生分别对应于所述主信道和所述辅信道的两个短时傅里叶变换STFT,即提取所述原始声学特征。
3.根据权利要求2所述的近距离交谈场景下双麦克风移动电话的实时语音降噪方法,其特征在于,所述原始声学特征还包括信道内特征和信道间特征;
信道内特征包括两个信道处的带噪频谱幅度,信道间特征包括信道间信号差与和的频谱幅度。
4.根据权利要求3所述的近距离交谈场景下双麦克风移动电话的实时语音降噪方法,其特征在于,将所述信道内特征和所述信道间特征视为第一卷积层的四个不同输入信道,输入所述卷积递归网络CRN以进行掩模估计。
5.根据权利要求1所述的近距离交谈场景下双麦克风移动电话的实时语音降噪方法,其特征在于,本发明的语音降噪算法首先经历训练阶段,在该阶段使用所述相敏掩模PSM作为训练目标,通过对比所述主信道中所述带噪语音信号的短时傅里叶变换与所述带噪语音信号对应的干净语音信号的短时傅里叶变换来构造所述相敏掩模PSM。
6.根据权利要求5所述的近距离交谈场景下双麦克风移动电话的实时语音降噪方法,其特征在于,在训练期间,所述卷积递归网络CRN针对每个所述带噪语音信号来估计所述相敏掩模PSM,然后优化所估计的相对于所述相敏掩模PSM的均方误差。
7.根据权利要求6所述的近距离交谈场景下双麦克风移动电话的实时语音降噪方法,其特征在于,所述卷积递归网络CRN的参数通过重复单次迭代过程来学习以最小化整个训练集的所述均方误差,在每个单次迭代过程中,训练集中的每个模式都被使用一次。
8.根据权利要求7所述的近距离交谈场景下双麦克风移动电话的实时语音降噪方法,其特征在于,一旦训练完成,经训练的所述卷积递归网络CRN直接用于在被称为推理或操作的处理中对输入的所述带噪语音进行降噪。
9.根据权利要求1所述的近距离交谈场景下双麦克风移动电话的实时语音降噪方法,其特征在于,所述卷积递归网络CRN进行掩模估计后得到的所述相敏掩模,随后被应用于主信道带噪语音信号的频谱幅度。
10.根据权利要求1所述的近距离交谈场景下双麦克风移动电话的实时语音降噪方法,其特征在于,通过对各种训练噪声以及说话者的大规模训练来实现未训练条件下的预测,并借助于卷积神经网络的特征提取能力和递归神经网络的时间建模能力。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大象声科(深圳)科技有限公司,未经大象声科(深圳)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910945319.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种语音信号的提纯方法及装置
- 下一篇:一种音频处理方法及装置