[发明专利]一种基于神经网络模型的会议终端语音降噪方法有效

申请号：	201810934162.0	申请日：	2018-08-16
公开（公告）号：	CN109065067B	公开（公告）日：	2022-12-06
发明（设计）人：	薛建清;陈东敏;刘敏;何志辉	申请（专利权）人：	福建星网智慧科技有限公司
主分类号：	G10L21/0216	分类号：	G10L21/0216;G10L21/0232;G10L25/30;G10L25/24;G10L25/18
代理公司：	福州市鼓楼区京华专利事务所(普通合伙) 35212	代理人：	林云娇
地址：	361000 福建省厦门市***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供一种基于神经网络模型的会议终端语音降噪方法，包括1、会议终端设备对音频文件进行采集，生成时域的数字音频信号；2、将数字音频信号分帧并进行短时傅里叶变换；3、将频域的幅度谱映射到频带中，进而求其梅尔倒谱系数；4、利用梅尔倒谱系数计算一阶和二阶差分系数，在每个频带上计算出基音相关系数，再提取基音周期特征和VAD特征；5、将音频的输入特征参数作为神经网络模型的输入，离线训练神经网络，使其学习到生成降噪语音的频带增益，训练好权重固化出来；6、使用神经网络模型学习后产生频带增益，将输出的频带增益映射到频谱，加上相位信息，通过傅里叶逆变换还原成降噪后的语音信号。本发明可达到实时降噪的目的。
搜索关键词：	一种基于神经网络模型会议终端语音方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于神经网络模型的会议终端语音降噪方法，其特征在于：包括如下步骤：步骤1、会议终端设备对音频文件进行采集，生成时域的数字音频信号，该时域的数字音频信号混有语音信号和噪声信号；步骤2、将该时域的数字音频信号分帧并进行短时傅里叶变换后由时域转到频域；步骤3、根据人的听觉特性，将频域的幅度谱映射到频带中，进而求其梅尔倒谱系数；步骤4、利用梅尔倒谱系数计算出一阶差分系数以及二阶差分系数，在每个频带上计算出基音相关系数，再提取时域的数字音频信号的基音周期特征和VAD特征，将梅尔倒谱系数、一阶差分系数、二阶差分系数、基音相关系数、基音周期特征和VAD特征作为音频的输入特征参数；步骤5、将音频的输入特征参数作为神经网络模型的输入，将一阶差分系数、二阶差分系数、基音相关系数、基音周期特征和VAD特征用来离线训练神经网络，使其学习到生成降噪语音的频带增益，训练好的权重固化出来，供每次算法调用；步骤6、使用具有长短期记忆的神经网络模型学习后产生频带增益并输出，将输出的频带增益通过线性插值的方式映射到频谱，并得到频谱上每个频点的增益，再加上时域的数字音频信号的相位信息，通过傅里叶逆变换，最终还原成降噪后的语音信号。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于福建星网智慧科技有限公司，未经福建星网智慧科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810934162.0/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于神经网络模型的会议终端语音降噪方法有效

专利文献下载