[发明专利]一种利用CNN的SE-ED网络进行远场语音去混响的方法在审
申请号: | 201910921234.2 | 申请日: | 2019-09-27 |
公开(公告)号: | CN110544485A | 公开(公告)日: | 2019-12-06 |
发明(设计)人: | 李楠;関博史 | 申请(专利权)人: | 慧言科技(天津)有限公司 |
主分类号: | G10L21/0208 | 分类号: | G10L21/0208;G10L25/24;G10L25/30 |
代理公司: | 11670 北京栈桥知识产权代理事务所(普通合伙) | 代理人: | 潘卫锋<国际申请>=<国际公布>=<进入 |
地址: | 300384 天津市西青区天津华苑产业*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及语音信号处理技术领域,针对远场情况下混响比较大从而引起语音识别的识别准确率严重下降的情况,提出了一种利用CNN的SE‑ED网络进行语音去混响的方法。技术方案以2014年的REVERB Challenge数据集作为处理对象,主要涉及以下几个方面:1)对该数据集中的含混响的语音和与其对应的不含混响的语音进行特征提取;2)针对所提取的特征进行从含混响的语音特征到不含混响语音特征映射;3)将通过所提出的网络框架所增强后的特征进行声学模型训练及其解码。本发明通过控制scale的大小,把语音中重要的特征增强,不重要的特征减弱,从而让提取的语音特征指向性更强,达到了方案的预期结果,从而使得复杂场景下的远场语音识别性能得到了很好的提升。 | ||
搜索关键词: | 语音特征 语音 语音识别 混响 远场 语音信号处理 解码 处理对象 复杂场景 声学模型 数据集中 特征提取 特征增强 网络框架 预期结果 数据集 指向性 映射 准确率 网络 | ||
【主权项】:
1.一种利用CNN的SE-ED网络进行远场语音去混响的方法,其特征在于,包括以下步骤:/nS1:声学特征的提取:/nS11:预加重:将数据集中任意一组语音信号s(n)通过高通滤波器;/nS12:加窗:取25ms为一帧,并使用汉宁窗;/nS13:快速傅里叶变换(FFT):对每一帧进行FFT变换,从时域数据转变为频域数据,并计算其能量;/nS14:Mel滤波:把求出的每帧谱线能量通过Mel滤波器,并计算在Mel滤波器中的能量;/nS15:计算DCT倒谱:把Mel滤波器的能量取对数后计算DCT,得到Mel频率倒谱系数MFCC;/nS2:神经网络框架的设计及其训练:/nS21:构建SE—ED(Squeeze-and-Excitation—Encoder-Decoder)网络结构,其中Encoder-decoder模型框架中穿插着SeNet(Squeeze-and-Excitation Networks)结构;/nS22:在所述Encoder-decoder模型框架中,将Encoder的通道个数分别设置成[12,12,24,24,32],将Decoder的通道个数分别设置成为[32,24,24,12,12],卷积神经网络的通道总个数设置为C;/nS23:对步骤15中得到的MFCC特征进行Squeeze操作,对C个通道做全局平均池化处理;/nS24:对S22中得到的全局平均池化数据通过两个全连接实现Excitation操作,基于通道的整体信息训练出得出下一级输入数据;将所输入述数据通过sigmoid限制到[0,1]范围内得到scale值;/nS25:使用训练出scale值与原来的卷积神经网络的输出层的C个通道进行相乘,得到下一级的输入数据;/nS3:基于DNN-HMM声学模型的训练及其解码:/nS31:使用Kaldi中的nnet2中的声学模型进行最终的语音识别;/nS32:使用干净语音的BNF和干净语音的MFCC的融合特征进行归一化,然后求其一阶差分和二阶差分,将进行差分后的特征来进行单因素以及三音素训练;/nS33:使用数据集中多场景下进行语音去混响之后的BNF和MFCC特征进行声学模型的训练;/nS34:最后将去混响之后的测试集数据进行解码。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于慧言科技(天津)有限公司,未经慧言科技(天津)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910921234.2/,转载请声明来源钻瓜专利网。