[发明专利]轻量级时域卷积网络语音增强方法与系统在审
申请号: | 202011329491.6 | 申请日: | 2020-11-24 |
公开(公告)号: | CN112331224A | 公开(公告)日: | 2021-02-05 |
发明(设计)人: | 刘明;周彦兵;王贝;孙冲武;赵学华 | 申请(专利权)人: | 深圳信息职业技术学院 |
主分类号: | G10L21/02 | 分类号: | G10L21/02;G10L21/0216;G10L25/30 |
代理公司: | 深圳市添源知识产权代理事务所(普通合伙) 44451 | 代理人: | 罗志伟 |
地址: | 518000 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 轻量级 时域 卷积 网络 语音 增强 方法 系统 | ||
本发明提供了一种轻量级时域卷积网络语音增强方法,首先,将带噪语音信号进行分帧加窗处理,然后进行短时傅里叶变换,得到带噪语音信号的幅度谱和相位谱,随后将带噪语音信号的幅度谱送入时域卷积网络模型,进行先验信噪比的估计,紧接着利用估计的先验信噪比进行增益函数的估计,最后在幅度域进行滤波降噪,并利用带噪语音信号的相位谱作为增强后的相位,进行语音信号的重构。本发明还提供了一种轻量级时域卷积网络语音增强系统。本发明的有益效果是:算法的神经网络部分只进行先验信噪比的估计,减小了任务难度,实现了更轻量级的神经网络架构,内存占用量小,运算复杂度低,使其可以较好的在一些低运算量平台的嵌入式设备上使用。
技术领域
本发明涉及语音增强方法,尤其涉及一种轻量级时域卷积网络语音增强方法与系统。
背景技术
目前,市面上的语音交互产品,如智能手机、服务机器人、录音笔、翻译机等,都会内置语音增强算法,用来消除环境中的背景噪声,从而达到提高噪声环境中用户使用体验的目的。最新的研究表明,深度神经网络在语音增强方面表现出了十分优秀的效果。但是,基于深度神经网络的降噪方法也存在着内存占用量大,运算复杂度高等缺点,使其难以在一些低运算量平台的嵌入式设备上使用。
发明内容
为了解决现有技术中的问题,本发明提供了一种基于贝叶斯统计模型的轻量级时域卷积网络语音增强方法与系统。
本发明提供了一种轻量级时域卷积网络语音增强方法,首先,将带噪语音信号进行分帧加窗处理,然后进行短时傅里叶变换,得到带噪语音信号的幅度谱和相位谱,随后将带噪语音信号的幅度谱送入时域卷积网络模型,进行先验信噪比的估计,紧接着利用估计的先验信噪比进行增益函数的估计,最后在幅度域进行滤波降噪,并利用带噪语音信号的相位谱作为增强后的相位,进行语音信号的重构。
语音信号的重构包括反傅里叶变换和重叠相加。
作为本发明的进一步改进,所述时域卷积网络模型的构建过程如下:
首先,根据先验信噪比的定义,其取值范围为大于零的任意数,如式子 (1)所示:
其中,|Xclean(n,k)|和|Nnoise(n,k)|分别代表纯净语音和噪声信号的幅度谱,n 和k分别为帧索引和频率索引,为了降低时域卷积网络模型的学习难度,对其进行值域范围进行压缩,通过对先验信噪比的统计研究发现,其对数变换形式,如式(2)所示,是服从高斯分布的,因此利用一种累积分布函数,对其进行压缩,如式子(3)所示:
ξdB(n,k)=10·log10(ξ(n,k)) (2)
其中,ξdB(n,k)为对数压缩后的先验信噪比,而则是通过累积分布函数压缩后的先验信噪比,其取值范围为[0,1],erf(·)代表的是累积分布函数,μk和σk分别为在不同频点上,通过统计分析得到的ξdB(n,k)所对应的均值和方差;
接下来,考虑到语音信号之间的时序依赖性,利用空洞卷积设计了一种轻量级的时域卷积网络模型,来学习带噪语音幅度谱|Xnoisy(n,k)|和先验信噪比之间的映射关系。
作为本发明的进一步改进,所述时间卷积网络模型训练时的损失函数用交叉熵来计算,计算式如式子(4)所示,其中yi和分别为理想的先验信噪比和神经网络输出层预测的先验信噪比结果:
作为本发明的进一步改进,对进行降噪滤波的增益函数进行估计,采用的是以贝叶斯理论和最小均方误差准则推导出的增益函数表达形式,如下式子(5)所示:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳信息职业技术学院,未经深圳信息职业技术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011329491.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种天然清香环保涂料及其制备方法
- 下一篇:一种计算机防尘机箱