[发明专利]基于双通道神经网络时频掩蔽的语音增强方法、装置及助听设备在审
申请号: | 202010840475.7 | 申请日: | 2020-08-20 |
公开(公告)号: | CN114078481A | 公开(公告)日: | 2022-02-22 |
发明(设计)人: | 贾海蓉;梅淑琳;张敏;张雪英;王峰 | 申请(专利权)人: | 太原理工大学 |
主分类号: | G10L21/0208 | 分类号: | G10L21/0208;G10L21/0216;G10L21/0224;G10L21/0232;G10L25/30 |
代理公司: | 北京一品慧诚知识产权代理有限公司 11762 | 代理人: | 邓树山 |
地址: | 030600 山西省太原*** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 双通道 神经网络 掩蔽 语音 增强 方法 装置 设备 | ||
本发明涉及助听语音增强技术领域,具体涉及一种基于双通道神经网络时频掩蔽的语音增强方法、装置及助听设备,其方法包括在噪声和混响条件下使用两个麦克风接收语音信号,将接收到的每路麦克风信号通过训练好的单通道神经网络进行初步语音增强,去除与目标语音同方向的噪声;与盲目依靠信号能量的传统定位不同,自适应比率掩模提供了目标信号的视图,能精确识别每个麦克风通道上的语音主导时频单元,将时频单元用于声源定位,在噪声和混响条件下保证获得较高的定位精度;通过计算的权重输入WPD波束形成器去除与目标语音不同方向的带噪语音并抑制房间混响,得到语音质量好,可懂度高的增强语音。
技术领域
本发明涉及助听语音增强技术领域,具体涉及一种基于双通道神经网络时频掩蔽的语音增强方法、装置及助听设备。
背景技术
听力损失患者由于听觉器官受损,其言语辨识能力下降,使得他们在噪声环境中的语音理解力远低于听力正常者。听力丧失会给生活造成极大的不便。根据国家健康调查显示,随着人们更多的接触便携音乐播放器,暂时性和永久性的听力损失现象变得年轻化。佩戴助听器是解决听力损失问题最安全、最有效的方式之一,对于改善听力有损人群的听力方面具有不能取代的作用。噪声环境中听力损失患者的语音理解度是影响助听器使用的关键因素之一,因此语音增强技术是助听器中的一种核心技术,它能有效消除背景噪声,改善语音质量,从而提高患者在噪声环境中的语音理解度。
常见的助听器语音增强算法,根据接收端麦克风数量的不同,可以划分为单通道语音增强和麦克风阵列语音增强两类。单通道语音增强包括谱减法、维纳滤波法、单通道神经网络语音增强等,利用语音或噪声的统计信息进行去噪,只需要单个麦克风就能实现,成本较低;但由于单通道语音增强算法只能获取较少的语音信息量,且无法利用声音的空间信息,性能受到了限制。数字助听器一般采用基于麦克风阵列的语音增强算法,不仅利用了语音的时频信息还考虑了声源的空间信息,能够有效提取出某一空间范围内的声音信号,使助听器可以在高信噪比背景下提供良好的语音理解;然而,在低信噪比环境下的听觉体验并不像预期的那样令人满意。
近年来,提出了几种有效的多通道助听器语音增强算法。C.Knapp和G.Carter提出了基于相位变换的广义互相关矩阵(Generalized Cross Correlation with PhaseTransform,GCC-PHAT),算法能降低噪声,但GCC-PHAT系数总和在有干扰源或混响环境中显示虚假峰值导致估计的到达方向(Direction of Arrival,DOA)不准确,降噪性能差。R.Schmidt等人提出多重信号分类算法,使用基于不合理假设的开始帧或语音活动检测预测的静默帧来估计噪声的协方差矩阵,降噪性能受麦克风数量限制。M.L.Seltzer提出后滤波算法,通过相位信息进行空间滤波,能有效去除噪声,但在混响多源环境下往往无法实现高质量的语音降噪。
随着深度学习的发展,提出了基于深度学习的麦克风阵列语音增强算法,有效提升了增强语音的质量。J.Woodruff利用耳间时间做为空间特征输入神经网络训练,重构语音清晰度得到显著改善。Martin Raspaud等人输入耳间时间差、通道间相位差和语音频谱来训练深度自动编码器进行增强。然而,这些算法均假设目标语音来自正前方,因此当目标语音来自其他方向时增强效果较差。并且由于数字助听器的硬件条件限制,只能使用两到三个低复杂度的麦克风阵列进行初步语音增强,得到的重构语音可懂度低。
另外,传统基于WPD的卷积波束形成器的助听器语音增强的方法,通过GCC-PHAT等方法计算到达时间差,再结合麦克风阵列的几何假设,估计方向矢量;但上述传统方法不能精确计算对波束形成至关重要的噪声和语音的统计值。在存在噪声、混响等干扰条件下,阵列无法对期望信号准确形成波束,在干扰方向上形成零陷。噪声是千变万化的,现有的方法只能去除与目标语音不同方向的噪声,有的在去除噪声的同时又带来新的噪声,有的去除噪声后会对语音带来不可逆的损伤,因此在实际中增强语音效果差,有大量残余噪声,语音可懂度低。波束形成算法的增强效果很大程度上依赖于麦克风阵列的数量和几何形状,数字助听器由于硬件条件限制,只能使用两到三个麦克风,限制了算法性能。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于太原理工大学,未经太原理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010840475.7/2.html,转载请声明来源钻瓜专利网。