[发明专利]一种改进的自编码神经网络语音增强算法在审
申请号: | 201711182408.5 | 申请日: | 2017-11-23 |
公开(公告)号: | CN107967920A | 公开(公告)日: | 2018-04-27 |
发明(设计)人: | 黄金杰;王雅君;陆春宇 | 申请(专利权)人: | 哈尔滨理工大学 |
主分类号: | G10L21/0216 | 分类号: | G10L21/0216;G10L25/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150080 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种改进的自编码神经网络语音增强算法,由于传统的语音增强算法诸如谱减法和维纳滤波法在语音增强效果方面存在诸多弊端,例如对非平稳噪音过滤差,增强后会有“音乐噪音”的残留,对噪音种类和信噪比泛化作用差;本发明采用改进的自编码神经网络语音增强算法,将自编码神经网络的三层结增加到5层,各层对应的神经元数目分别为256,128,64,128,256,同时将100种噪音按照信噪比‑5dB,0dB,5dB,10dB和15dB加入纯静音频中,构造海量的数据集来训练网络,训练之后的网络模型能够起到良好的语音增强作用,并且由于训练数据之大,对噪音种类和信噪比具有良好的泛化作用。 | ||
搜索关键词: | 一种 改进 编码 神经网络 语音 增强 算法 | ||
【主权项】:
一种改进的自编码神经网络语音增强算法,其特征在于:将自编码神经网络的三层结构增加为5层,分别为输入层,隐藏层1,隐藏层2,隐藏层3和输出层,各层对应的神经元个数分别为256,128,64,128,256,除输入层外,每层都用sigmoid函数做为激活函数,公式表示如下(1)所示:q=sigmoid(Wp+b) (1)(1)式中,W为权重矩阵,p为上一层神经元的输出,b为偏置矩阵,q为神经元输出,我们假定纯净的音频为x,对应的噪声音频为X,网络可以看作一个高度复杂的非线性函数f,那么所要做的就是采用误差反向传播,更新网络参数,使得当加噪音频X通过网络后的输出和原来的非加噪音频最为接近,公式表示为如下(3)所示:E=||f(X)-x||22Δwi(l)=-σ∂E∂wi(l)---(2)]]>(2)式中,E为网络输出和原始干净音频之间的均方误差,为第l层神经元的第i个单元的参数;训练神经网络时,先对有噪音的音频进行分帧处理,每帧32毫秒,涵盖256个采样点,刚好对应改进的自编码神经网络的的输入层神经元个数,分帧之后进行快速傅里叶变换,将幅值平方然后取对数,也就是常说的对数功率谱,最后拿频域数据对神经网络进行训练,语音增强时,同样会对含噪音频进行分帧,快速傅里叶变换,求取对数功率谱,拿频域数据送入已经训练好的神经网络,经过神经网络复杂的非线性映射之后,会输出频域特征,然后进行反快速傅里叶,将频域数据再次转换为时域,最后进行重叠相加,这样就得到了经过增强之后的时域的音频。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711182408.5/,转载请声明来源钻瓜专利网。
- 上一篇:消除TDD噪声的方法、装置及移动终端
- 下一篇:会议系统的音量调节方法及装置