[发明专利]一种基于听觉模型和信源方位的多通路语音降噪方法有效
申请号: | 202010018821.3 | 申请日: | 2020-01-08 |
公开(公告)号: | CN111210835B | 公开(公告)日: | 2023-07-18 |
发明(设计)人: | 杨子晖;钟小丽;宋昊 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G10L21/0208 | 分类号: | G10L21/0208;G10L21/0216;G10L25/30 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 何淑珍;江裕强 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 听觉 模型 信源 方位 通路 语音 方法 | ||
1.一种基于听觉模型和信源方位的多通路语音降噪方法,其特征在于包括以下步骤:
步骤1,将多通路带噪语音信号进行通路分离,得到各通路上独立的带噪语音信号;
步骤2,将各通路带噪语音信号导入听觉模型,映射到初级感知域,进一步映射成为语谱灰度图;
步骤3,将语谱灰度图输入方向识别神经网络模型,得到语声信源的空间方位;
步骤4,将语谱灰度图输入对应信源方位的降噪神经网络,对有语音部分和无语音部分分别实施Non-local Means非局部均值降噪;所述的降噪神经网络采用Non-local Means非局部均值降噪法,对语谱灰度图的有语音部分与无语音部分分别进行图像降噪处理,训练过程包括以下步骤:
步骤401:对语谱灰度图进行有语音部分与无语音部分划分,分别采用不同参数的降噪神经网络进行处理;所述的对语谱灰度图进行有语音部分与无语音部分划分,具体包括以下步骤:
步骤4011:将尺寸为M×N的二维语谱灰度图压缩为1×N的一维平均灰度序列,序列的每一个元素对应灰度图每一列像素的灰度均值;
步骤4012:取检测窗长为τ,步长为υ,从序列第一个元素开始进行语音检测,τ、υ均为正整数,且υ≤τ;
步骤4013:若第个检测窗内的元素均值相较于第个窗产生了大于+5dB的跃升,第个检测窗内的元素均值相较于第个窗产生了大于-5dB的下降,则第帧到第帧被标记为语音部分,即语谱灰度图的第列到第列像素被标记为语音部分;
步骤4014:在整个序列上进行检测窗滑动,根据步骤4013对有语音部分和无语音部分进行划分;
步骤402,将待降噪部分图像像素点设为P(ε),构建以P(ε)点为中心的λ×λ像素点阵Nei(ε),称为P(ε)点的邻域;λ为大于1的奇数,且为邻域像素点方阵尺寸;
步骤403,在待降噪部分图像最外周增补值为0的像素点,增补周数为γ=(λ-1)/2;
步骤404,遍历图像,对于图像内任一像素点根据点邻域与Nei(ε)间的差异更新P(ε)点的灰度值,计算方法如公式(5)、(6)所示:
(5)式中,P′(ε)为更新后的像素点灰度值;为原图像内任一像素点灰度值;为权值函数,具体计算方法如(6)式所示;h为Non-localMeans降噪算法衰减因子;Nei(ε)、分别为点P(ε)、的邻域;
步骤405,根据步骤404将图像中所有像素点灰度值进行更新,即完成了待降噪部分图像的降噪处理;
步骤406,以其中一方向的带噪语音语谱灰度图和对应的无噪语音语谱灰度图作为降噪神经网络的输入,对降噪神经网络模型进行训练,训练得到合适的Non-local Means降噪衰减因子h1、h2,h1、h2分别为对语谱图有语音部分和无语音部分降噪的衰减因子,使得降噪后语谱图与无噪语谱图间像素灰度均方误差最小,最终训练得到不同方向的μ个降噪神经网络,训练流程如公式(7)所示:
(7)式中,h1、h2分别为对语谱图有语音部分和无语音部分Non-local Means降噪的衰减因子;为降噪后语谱图像素点灰度;为无噪语音语谱图像素点灰度;M、N为语谱图尺寸;为训练得到的最优衰减因;
步骤5,对步骤2得到的每个通路语谱灰度图分别实施步骤3到步骤4,得到每个通路的降噪后语谱图;
步骤6:将每个通路的降噪后语谱图进行逆变换,然后进行通路合并,得到降噪后的多通路语音信号;
具体包括以下步骤:
步骤601:降噪前语谱灰度图设为尺寸为M×N,降噪后语谱图设为计算幅值调整矩阵计算方法如公式(8)所示:
(8)式中,δ分别表示语谱图的第行、第δ列;
步骤602:将系数矩阵C与听觉模型的输出矩阵X对应相乘进行幅值调整,得到降噪矩阵X′,X′=X×C;
步骤603:通过逆听觉模型对降噪矩阵X′进行初级感知域逆映射,逆听觉模型计算方法如公式(9)、(10)、(11)所示:
(9)式中,G为权重,0<G<1;矩阵x′为逆听觉模型的输出;降噪矩阵X′为步骤602的计算结果,作为逆听觉模型的输入;n、k分别为矩阵的行数、列数;fk为矩阵内各采样点对应的频率,单位为Hz;A(fk)为频率权重调整系数,具体计算方法如(10)式所示;Sign[n,k]为符号修正函数,根据原听觉模型的输出调整矩阵x′的符号,具体计算方法如(11)式所示;(11)式中,矩阵x为听觉模型的输出矩阵;
步骤604:对步骤603的输出矩阵x′进行逆短时傅里叶变换,实现对各通路信号的时域还原;
步骤605:通过通路合并得到降噪后的多通路语音信号。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010018821.3/1.html,转载请声明来源钻瓜专利网。