[发明专利]一种基于语音前端噪声消除的提高语音识别准确率的方法有效

申请号：	201410281240.3	申请日：	2014-06-20
公开（公告）号：	CN104064196B	公开（公告）日：	2017-08-01
发明（设计）人：	刘明;王明江	申请（专利权）人：	哈尔滨工业大学深圳研究生院
主分类号：	G10L21/0308	分类号：	G10L21/0308;G10L25/84
代理公司：	深圳市科吉华烽知识产权事务所(普通合伙)44248	代理人：	陈本发,刘显扬
地址：	518000 广东省深***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于语音前端噪声消除提高识别准确率方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及孤立词语音识别领域，具体涉及一种提高大规模孤立词语音识别的准确率的方法。

背景技术

语音识别技术中研究和应用最广泛的特征参数是梅尔倒谱系数(MFCC)，低频段MFCC参数具有较高的谱分辨率，适合于语音识别。从目前使用的情况来看，梅尔刻度倒频谱参数已基本取代原本常用的线性预测编码导出的倒频谱参数，原因是它考虑了人类发声与接收声音的特性，在语音识别方面表现出了更好的鲁棒性。

但是MFCC参数在存在较大的背景噪声的情况下，其识别率也不是很好。由于自然界任何地方都存在噪声，因此任何人发出的语音都是混有噪声的语音，即使是在绝对安静的环境下。在时域中，背景噪声以横波的形式叠加在语音波形上，在该情况下，在进行语音端点检测的时候，无疑会将噪声大、语音小的部分波形也当成有用的语音帧，这样提取的语音特征参数MFCC是不理想的，甚至是不可用的。

人的听觉系统能够在噪声环境中区分并跟踪自己感兴趣的语音信号，即使多种声音同时存在也能“听取”所需要的内容。听觉场景分析(ASA)正是在这一听觉生理现象上提出的理论。CASA模拟人耳的神经听觉系统，对语音信号的处理更接近于人对混合声音信号的听觉感知过程。因此可以用来将噪声从语音信号中分离出来，得到比较纯的语音信号，实际上是在语音识别过程中加入一个前端处理，从而达到提高含噪声语音识别的准确率。利用CASA进行语音增强的重点是选择合适的特征来分离目标语音和背景噪音，可用的特征包括语谱能量、基因频率和信道互相关特征阈值。

发明内容

为解决现有技术中存在的问题，本发明提出了一种通过基于语音前端噪声消除来提高大规模孤立词语音识别准确率的方法，解决了由于含有噪声，MFCC提取过程中语音端点检测错误导致识别准确率低的问题。

本发明通过以下技术方案实现：

一种基于语音前端噪声消除的提高语音识别准确率的方法，其特征在于：所述方法采用计算听觉场景分析(CASA)实现语音识别前端的噪声消除，所述方法包括以下步骤：

A.16KHz采样的带噪语音，先通过一个32通道的Gammatone滤波器，中心频率为50Hz～8KHz，对滤波后的信号加时间分辨率为20ms的矩形窗，帧率为100Hz；

B.计算第i个频率第j帧的听觉谱的噪声包络和语音包络，计算公式为：

其中，i，j分别表示第i个频率，第j帧；N是一帧内的采样点的个数；x表示信号的时域振幅，下标L和R表示两个不同的声道；

C.计算噪声通道和语音通道的互相关函数

其中，τ是语音和噪声的特征时延，τ的取值范围是-16到16，对应16KHz的采样率下的-1ms到1ms的相对事件范围；

D.通过互相关函数计算计算噪声通道和语音通道的ITD和ILD：

ITD(i,j)＝argmaxCC^i,j(τ)，

E.通过将所有帧、所有频率信道上的互相关函数相加，求出该和的极值，即为语音和噪声的特征时延τ，