[发明专利]基于听觉滤波器组和卷积神经网络的全局信噪比估计方法在审
申请号: | 202110025619.8 | 申请日: | 2021-01-08 |
公开(公告)号: | CN112885375A | 公开(公告)日: | 2021-06-01 |
发明(设计)人: | 王龙标;李楠;党建武;张苏林;于波 | 申请(专利权)人: | 天津大学 |
主分类号: | G10L25/60 | 分类号: | G10L25/60;G10L25/30 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 程小艳 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 听觉 滤波器 卷积 神经网络 全局 估计 方法 | ||
1.基于听觉滤波器组和卷积神经网络的全局信噪比估计方法,其特征在于,包括:
1)对含噪语音利用bark尺度利用高通滤波器和低通滤波器将音频分割成不同的子带,并计算每个子带的能量;
2)构建卷积神经网络,计算每个子带中噪声比例,进而计算子带中噪声能量;
3)计算全局SNR;
具体步骤如下:
1)基于Bark尺度的滤波器组
使用多子带方法,将含噪语音分为不同频率的子带;
使用基于Bark刻度的滤波器组,滤波器组由具有恒定带宽的带通滤波器组成,根据Bark尺度,滤波器的截止频率分别设置为[100 200 300 400 510 630 770 920 1080 12701480 1720 2000 2320 2700 3150 3700],语音的采样频率在这个实验中被降到8000赫兹,这个过程可以用以下函数表示:y(k,n)=BFB(y(n))
其中,n为采样点的个数,k为将音频分割成K个子带后第k个子带,BFB表示Bark滤波器组;
在分割成不同子带后还需要计算每个子带的能量,如下所示:Etotal(k,n)=|y(k,n)|2
2)子带噪声能量的计算
在训练阶段将子带能量输入到提出的子带噪声估计网络中来估计子带噪声能量比例,训练过程中的标签通过如下公式计算而得:
其中,R=[r(1),r(2),...,r(K)]N为一帧语音中所含有采样点的总数,r(k)为第k个子带的噪声能量占比,训练过程中通过训练神经网络gθ使得的值最小。;
其中,R为每个子带噪声能量占比的集合;g为所提出的子带噪声能量估计网络(SNENet);
在解码/估计阶段,直接将测试数据的子带能量Ek,total输入到训练好的网络中就得到估计的子带噪声能量占比,通过将子带噪声能量占比和子带总能量相乘就可以得到最终的子带中噪声能量,如下公式所示:
其中,为估计的第k个子带的噪声占比,ET(k)为求得的每个子带中噪声能量的大小;
3)全局信噪比的计算
语音波形的功率由所有子带的功率之和计算得出,最后全局SNR由所有子带的功率融合得到如下所示:
其中,PS(k)为第k个子带中所有纯净语音的能量和,PN(k)为第k个子带中所有噪声的能量
和,通过将这些子带能量和相加就可以得到最终所估计出的全局SNR即);
其中,PN(k)由计算得出;LN为当大于P时所有语音帧的个数,当大于某一值时计算全局信噪比最准确,L为语音帧的总数;
最后,通过将所有能量和所有噪声的能量相减就得到PS(k)。
2.根据权利要求1所述的基于听觉滤波器组和卷积神经网络的全局信噪比估计方法,其特征在于,在SNENet中使用CNN编解码器,不仅用于全连接层,还使用另一种卷积网络结构,即CNN编解码器C-ED网络,其中C-ED由卷积、平均池化、批处理规范化和ReLU层组成;
编码器和解码器滤波器的数目是对应的,编码器滤波器的数目逐渐增加,解码器滤波器的数目逐渐减少;
卷积神经网络中卷积层的通道数对应不同的子带,平均池化层用来减少参数的个数,在CNN模型中设置了不同的卷积核来学习不同的上下文模式。
3.根据权利要求1所述的基于听觉滤波器组和卷积神经网络的全局信噪比估计方法,其特征在于,在SNENet中使用一种基于全连接层的网络;后映射网络由两层全连通层组成,其中激活函数为ReLU;最后通过一层激活函数为Sigmoid的全连接网络,就可以得到最终的子带能量噪声占比。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110025619.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种无刻度镗刀
- 下一篇:一种锆管靶及生产方法