[发明专利]一种语音增强的系统无效
申请号: | 201010515293.9 | 申请日: | 2010-10-14 |
公开(公告)号: | CN102456351A | 公开(公告)日: | 2012-05-16 |
发明(设计)人: | 梁维谦;胡奎;杨华中;蒋毅;陈卓 | 申请(专利权)人: | 清华大学 |
主分类号: | G10L21/02 | 分类号: | G10L21/02;G10L19/00;H04R3/00;H04R25/00 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
地址: | 100084*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 增强 系统 | ||
技术领域
本发明涉及语音增强技术领域,特别是涉及一种语音增强的系统。
背景技术
语音增强技术应用于噪声环境下的语音通信,可以提高通话质量;应用于人机对话,可以提高识别正确率。在人们的日常生活的各种噪声环境下,人们往往更希望获取经过降噪处理后的语音信息。语音增强的方法按通道个数可以分为单麦克语音增强与麦克风阵列增强技术。传统的单麦克语音增强技术如谱减法、维纳滤波等方法,都是先估计噪声幅值或能量,再将其从带噪语音中减去。对于平稳噪声如白噪声,可以达到一定的效果,然而对于诸如非目标人说话的噪声、音乐噪声等非平稳噪声则可能造成较严重的语音损伤。传统的多麦克语音增强技术是波速形成技术,包括延时相加、延时相减等固定波束,以及广义旁瓣消除等自适应波束。贝尔实验室研发了一种具有自适应特性的差分麦克风阵列(Gary W.Elko,Anh-Tho Nguyen Pong,A simple adaptive first-orderdifferential microphone,In:proc.1995Workshop on Applications of SignalProcessing to Audio and Acoustics,72-169),此类方法通过自适应调整空间滤波的参数,对位于零陷方向的不同类型的噪声均有一定的去噪效果但仍存在例如声源定位、对于来自与主声源相近的角度方向的噪声抑制效果差等问题。此外还有多子带的处理技术,如华为公司申请的一个专利(200410034505.6)“一种语音增强方法”。该方法采用的是多子带处理技术,虽然也能取得一定的去噪效果,但由于其仍是基于对子带信噪比的估计,因而也无法广泛适用于各种噪声类型。
因此,目前需要本领域技术人员迫切解决的一个技术问题就是:如何能够创新地提出一种语音增强的方法或者是系统,以满足各类噪声环境下的语音增强需求。
发明内容
本发明所要解决的技术问题是提供一种语音增强的系统,用以满足各类噪声环境下的语音增强需求,在实现较好去噪效果的同时保证较高的语音质量。
为了解决上述问题,本发明公开了一种语音增强的系统,所述系统包括:
语音采集模块,包括两路麦克,其中一路麦克置于目标声源的近端;另一路麦克置于目标声源的远端;所述采集模块用于采集两路语音信号;
双麦克语音增强模块,用于对采集的两路语音信号进行处理,以获取增强后的目标声源语音信号;所述双麦克语音增强模块包括以下子模块:
波束形成子模块,用于获得目标声源语音的参考信号;
零陷波束形成子模块,用于获得环境噪声的参考信号;
外围分析子模块,用于通过模拟声音进入人耳的过程,将两路语音进行分频及对语音信号进行变换;
特征提取子模块,用于提取分频后两路语音信号的延时差和能量差信息;
生成掩蔽子模块,根据提取的延时差和能量差信息获得不同时频区域对应的掩蔽值;
掩蔽值平滑子模块,用于对提取的掩蔽值进行平滑处理;
语音信号重建子模块,用于对由波束形成模块得到的参考信号进行掩蔽值处理,并合成增强后的语音信号作为输出。
优选的,所述语音采集模块还包括以下子模块:
滤波子模块,用于对两路麦克采集的语音信号进行带通滤波;
放大子模块,用于将滤波后的语音信号进行放大;
A/D转换子模块,用于将放大后的语音信号转换为数字信号。
优选的,所述双麦克语音增强模块还包括以下子模块:
语音激活检测子模块,用于检测纯环境噪声语音段。
优选的,所述外围分析子模块包括以下单元:
内耳耳蜗模拟单元,用于将语音信号进行gammatone滤波分频,获取两路信号在128个不同子频带的语音信号;
内耳非线性神经传导模拟单元,用于将每个频率通道的子带信号进行非线性变换;
中耳模拟单元,用于通过对每个通道的gammatone滤波器的增益按照等响度曲线进行调整。
与现有技术相比,本发明具有以下优点:
本发明通过特定的双麦克结构,模拟人耳的听觉场景分析能力来实现语音增强,具有与噪声类型无关的特点,可广泛应用于各类噪声环境下的语音增强,利用计算听觉场景分析的原理,将目标语音从背景噪声中进行分离,从而实现去噪,从而实现了与噪声的具体类型、各种噪声源的个数、目标声源与噪声源的空间拓扑结构无关,在实现较好去噪效果的同时保证较高的语音质量。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010515293.9/2.html,转载请声明来源钻瓜专利网。