[发明专利]一种基于FirePS卷积神经网络的语音增强方法在审
申请号: | 202211155820.9 | 申请日: | 2022-09-22 |
公开(公告)号: | CN115497496A | 公开(公告)日: | 2022-12-20 |
发明(设计)人: | 王启瑞;周琳;程云苓;邓宇汐;王天仪 | 申请(专利权)人: | 东南大学 |
主分类号: | G10L21/0224 | 分类号: | G10L21/0224;G10L21/0232;G10L19/008;G10L25/30 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 孙建朋 |
地址: | 211102 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 fireps 卷积 神经网络 语音 增强 方法 | ||
1.一种基于FirePS卷积神经网络的语音增强方法,其特征在于,包括以下步骤:
步骤1、将待训练的单通道语音信号与各种加性噪声按不同信噪比混合,得到含噪语音,并与纯净语音一起构成训练数据集;
步骤2、将步骤1得到的训练数据集中的含噪语音和纯净语音,分别通过分帧、加窗、短时傅里叶变换和对数运算,得到含噪语音、纯净语音对应的对数幅度谱图;
步骤3、将步骤2的含噪语音、纯净语音的对数幅度谱图,分别作为FirePS卷积神经网络的输入特征和标签,基于前向传播和反向传播算法,训练FirePS卷积神经网络;
步骤4、将待测试的单通道信号与各种加性噪声按不同信噪比混合,得到测试数据集,并通过分帧、加窗、短时傅里叶变换和对数运算,得到测试语音的对数幅度谱图和相位谱图;
步骤5、取步骤4得到测试语音对数幅度谱图,作为FirePS卷积神经网络的输入特征,映射得到增强后语音的对数幅度谱图,转换为幅度谱,根据步骤4得到测试信号的相位谱图,得到增强后语音信号的频谱,通过短时傅里叶逆变换和重叠相法得到时域波形,实现语音增强。
2.根据权利要求1所述的基于FirePS卷积神经网络的语音增强方法,其特征在于,FirePS卷积神经网络的结构由实现下采样编码的Fire块、提取特征的空洞卷积网络块、实现上采样的像素重排块组成,同时在对应的下采样编码的Fire块和实现上采样的像素重排块之间使用残差连接。
3.根据权利要求2所述的基于FirePS卷积神经网络的语音增强方法,其特征在于,FirePS卷积神经网络使用Fire块实现下采样编码,Fire块由一个卷积核为1*1尺寸的压缩卷积层、两个并联的卷积核尺寸分别为1*1和3*3的膨胀卷积层串联而成。
4.根据权利要求3所述的基于FirePS卷积神经网络的语音增强方法,其特征在于,FirePS卷积神经网络使用的混合空洞卷积块由三个卷积核尺寸相同、膨胀率分别为1、2、3的卷积层串联而成,并采用ReLU激活函数。
5.根据权利要求4所述的基于FirePS卷积神经网络的语音增强方法,其特征在于,FirePS卷积神经网络使用像素重排PS块实现上采样;像素重排PS块通过多通道间的重组,将每个像素点位置上的r个通道上的r个像素,重排成一个通道上的一个r×r的像素块,r为像素重排PS块的上采样倍数,从而将低分辨率、高通道数的特征图,映射为高分辨率、低通道数的特征图。
6.根据权利要求5所述的基于FirePS卷积神经网络的语音增强方法,其特征在于,FirePS卷积神经网络使用了对数平方损失和能量误差平均值线性组合的损失函数,其公式为:
loss=losslog-MSE+λlossenergy,
其中,loss表示FirePS卷积神经网络的损失函数,由两部分组成,分别为对数幅度谱的均方误差losslog-MSE和幅度谱的能量误差平均值lossenergy;为含噪语音经过FirePS卷积神经网络后的增强对数幅度谱,XLPS(f,k)为纯净语音的对数幅度谱,X(f,k)分别为对数幅度谱XLPS(f,k)对应的频谱,表示在t帧内进行平均处理,(f,k)为语音信号第k帧经傅里叶变换后的第f个频点值,λ为调节参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211155820.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种空气加热的加热不燃烧烟具
- 下一篇:一种毛状根生长培养装置及其培养方法