[发明专利]一种基于语音前端噪声消除的提高语音识别准确率的方法有效
申请号: | 201410281240.3 | 申请日: | 2014-06-20 |
公开(公告)号: | CN104064196B | 公开(公告)日: | 2017-08-01 |
发明(设计)人: | 刘明;王明江 | 申请(专利权)人: | 哈尔滨工业大学深圳研究生院 |
主分类号: | G10L21/0308 | 分类号: | G10L21/0308;G10L25/84 |
代理公司: | 深圳市科吉华烽知识产权事务所(普通合伙)44248 | 代理人: | 陈本发,刘显扬 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语音 前端 噪声 消除 提高 识别 准确率 方法 | ||
技术领域
本发明涉及孤立词语音识别领域,具体涉及一种提高大规模孤立词语音识别的准确率的方法。
背景技术
语音识别技术中研究和应用最广泛的特征参数是梅尔倒谱系数(MFCC),低频段MFCC参数具有较高的谱分辨率,适合于语音识别。从目前使用的情况来看,梅尔刻度倒频谱参数已基本取代原本常用的线性预测编码导出的倒频谱参数,原因是它考虑了人类发声与接收声音的特性,在语音识别方面表现出了更好的鲁棒性。
但是MFCC参数在存在较大的背景噪声的情况下,其识别率也不是很好。由于自然界任何地方都存在噪声,因此任何人发出的语音都是混有噪声的语音,即使是在绝对安静的环境下。在时域中,背景噪声以横波的形式叠加在语音波形上,在该情况下,在进行语音端点检测的时候,无疑会将噪声大、语音小的部分波形也当成有用的语音帧,这样提取的语音特征参数MFCC是不理想的,甚至是不可用的。
人的听觉系统能够在噪声环境中区分并跟踪自己感兴趣的语音信号,即使多种声音同时存在也能“听取”所需要的内容。听觉场景分析(ASA)正是在这一听觉生理现象上提出的理论。CASA模拟人耳的神经听觉系统,对语音信号的处理更接近于人对混合声音信号的听觉感知过程。因此可以用来将噪声从语音信号中分离出来,得到比较纯的语音信号,实际上是在语音识别过程中加入一个前端处理,从而达到提高含噪声语音识别的准确率。利用CASA进行语音增强的重点是选择合适的特征来分离目标语音和背景噪音,可用的特征包括语谱能量、基因频率和信道互相关特征阈值。
发明内容
为解决现有技术中存在的问题,本发明提出了一种通过基于语音前端噪声消除来提高大规模孤立词语音识别准确率的方法,解决了由于含有噪声,MFCC提取过程中语音端点检测错误导致识别准确率低的问题。
本发明通过以下技术方案实现:
一种基于语音前端噪声消除的提高语音识别准确率的方法,其特征在于:所述方法采用计算听觉场景分析(CASA)实现语音识别前端的噪声消除,所述方法包括以下步骤:
A.16KHz采样的带噪语音,先通过一个32通道的Gammatone滤波器,中心频率为50Hz~8KHz,对滤波后的信号加时间分辨率为20ms的矩形窗,帧率为100Hz;
B.计算第i个频率第j帧的听觉谱的噪声包络和语音包络,计算公式为:
其中,i,j分别表示第i个频率,第j帧;N是一帧内的采样点的个数;x表示信号的时域振幅,下标L和R表示两个不同的声道;
C.计算噪声通道和语音通道的互相关函数
其中,τ是语音和噪声的特征时延,τ的取值范围是-16到16,对应16KHz的采样率下的-1ms到1ms的相对事件范围;
D.通过互相关函数计算计算噪声通道和语音通道的ITD和ILD:
ITD(i,j)=argmaxCCi,j(τ),
E.通过将所有帧、所有频率信道上的互相关函数相加,求出该和的极值,即为语音和噪声的特征时延τ,
判断哪一个声道输入的是语音信号,当τ为负时,第一信道信号为纯语音;反之,第二个信道的信号为纯语音;
F.采用简单的3状态单项状态跳转HMM模型计算第i个频率第j帧信号的掩模m(i,j),掩模信息用来估计语音包络,其中
结合B中的包络可以计算出分离出噪声的语音的包络谱:
G.通过求解对数能量,提取每一帧语音的一个12维的谱系数向量,得到的系数向量可以直接作为语音识别的特征参数,具体采用以下公式:
其中,I是Gammatone滤波器的数量,其取值32,j、k分别表示第j帧中的第k个谱系数。
本发明的有益效果是:本发明为大规模孤立词语音识别提供了一种语音前端处理消除噪声从而提高识别准确率的方法。本发明解决了由于含有噪声,MFCC提取过程中语音端点检测错误导致识别准确率低的问题。实验结果表明,该算法在增加了一定计算量的前提下,有效地提高了噪声环境下大规模孤立词语音识别的准确率。
附图说明
图1是本发明的语音前端噪声消除过程示意图。
具体实施方式
下面结合附图说明及具体实施方式对本发明进一步说明。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学深圳研究生院,未经哈尔滨工业大学深圳研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410281240.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:随机熔丝感测
- 下一篇:异构解码网络的构建方法及系统、语音识别方法及系统