[发明专利]一种基于神经网络模型的会议终端语音降噪方法有效
申请号: | 201810934162.0 | 申请日: | 2018-08-16 |
公开(公告)号: | CN109065067B | 公开(公告)日: | 2022-12-06 |
发明(设计)人: | 薛建清;陈东敏;刘敏;何志辉 | 申请(专利权)人: | 福建星网智慧科技有限公司 |
主分类号: | G10L21/0216 | 分类号: | G10L21/0216;G10L21/0232;G10L25/30;G10L25/24;G10L25/18 |
代理公司: | 福州市鼓楼区京华专利事务所(普通合伙) 35212 | 代理人: | 林云娇 |
地址: | 361000 福建省厦门市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 神经网络 模型 会议 终端 语音 方法 | ||
1.一种基于神经网络模型的会议终端语音降噪方法,其特征在于:包括如下步骤:
步骤1、会议终端设备对音频文件进行采集,生成时域的数字音频信号,该时域的数字音频信号混有语音信号和噪声信号;
步骤2、将该时域的数字音频信号分帧并进行短时傅里叶变换后由时域转到频域;
步骤3、根据人的听觉特性,将频域的幅度谱映射到频带中,进而求其梅尔倒谱系数;
步骤4、利用梅尔倒谱系数计算出一阶差分系数以及二阶差分系数,在每个频带上计算出基音相关系数,再提取时域的数字音频信号的基音周期特征和VAD特征,将梅尔倒谱系数、一阶差分系数、二阶差分系数、基音相关系数、基音周期特征和VAD特征作为音频的输入特征参数;
步骤5、将音频的输入特征参数作为神经网络模型的输入,将一阶差分系数、二阶差分系数、基音相关系数、基音周期特征和VAD特征用来离线训练神经网络,使其学习到生成降噪语音的频带增益,训练好的权重固化出来,供每次算法调用;
步骤6、使用具有长短期记忆的神经网络模型学习后产生频带增益并输出,将输出的频带增益通过线性插值的方式映射到频谱,并得到频谱上每个频点的增益,再加上时域的数字音频信号的相位信息,通过傅里叶逆变换,最终还原成降噪后的语音信号。
2.如权利要求1所述的一种基于神经网络模型的会议终端语音降噪方法,其特征在于:所述步骤2具体为:
将该时域的数字音频信号进行分帧,设置每10ms为一帧,共N帧,N为正整数;在第1帧前面设置第0帧作为补偿帧,在第N帧后面设置第N+1帧作为补偿帧,从第1帧开始至第N帧每次处理当前帧和前一帧共20ms的数字音频信号,相邻帧之间具有10ms的重叠,从第1帧至第N帧的每一帧都进行短时傅里叶变换处理两次以加强算法的可靠性,第1帧至第N帧都处理完毕后就完成了由时域的数字音频信号到频域的数字音频信号的转变。
3.如权利要求1所述的一种基于神经网络模型的会议终端语音降噪方法,其特征在于:所述步骤3具体为:
使用梅尔尺度模拟人耳对频带的非线性感知,从低频到高频这一段频带内按临界带宽的大小由密到稀安排一组带通滤波器,每个带通滤波器对输入的频域的数字音频信号进行滤波;将每个带通滤波器输出的信号能量作为频域的数字音频信号的基本特征,对该基本特征计算其梅尔倒谱系数。
4.如权利要求1所述的一种基于神经网络模型的会议终端语音降噪方法,其特征在于:所述步骤4中利用梅尔倒谱系数计算出一阶差分系数以及二阶差分系数,具体为:
一阶差分系数的计算可以采用公式(1):
公式(1)中,dt表示第t个一阶差分系数;Ct表示第t个梅尔倒谱系数;Ct+1表示第t+1个梅尔倒谱系数;Ct-1表示第t-1个梅尔倒谱系数;Ct-k表示第t-k个梅尔倒谱系数;Q表示梅尔倒谱系数的阶数,取1;K表示一阶导数的时间差;k表示求和公式的一个遍历值;
二阶差分系数的计算可以采用公式(2):
公式(2)中,nt表示第t个二阶差分系数;dt表示第t个一阶差分系数;dt+1表示第t+1个一阶差分系数;dt-1表示第t-1个一阶差分系数;dt-k表示第t-k个一阶差分系数;Q表示梅尔倒谱系数的阶数,取2;K表示二阶导数的时间差;k表示求和公式的一个遍历值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建星网智慧科技有限公司,未经福建星网智慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810934162.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种通话控制方法、装置及设备
- 下一篇:音频处理方法、装置及存储介质