[发明专利]一种基于语音前端噪声消除的提高语音识别准确率的方法有效
申请号: | 201410281240.3 | 申请日: | 2014-06-20 |
公开(公告)号: | CN104064196B | 公开(公告)日: | 2017-08-01 |
发明(设计)人: | 刘明;王明江 | 申请(专利权)人: | 哈尔滨工业大学深圳研究生院 |
主分类号: | G10L21/0308 | 分类号: | G10L21/0308;G10L25/84 |
代理公司: | 深圳市科吉华烽知识产权事务所(普通合伙)44248 | 代理人: | 陈本发,刘显扬 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明为大规模孤立词语音识别提供了一种基于语音前端处理消除噪声从而提高识别准确率的方法,本发明的方法解决了由于含有噪声在MFCC提取过程中语音端点检测错误导致识别准确率低的问题。计算听觉场景分析(CASA)用于语音识别的前端,相比于降噪、语音增强等传统去噪方法,通过模拟人耳的听觉神经系统,可以有效的将噪声从带噪语音中分离出来。本发明中对10240个带噪语音进行识别,相比于不进行前端噪声处理,识别的准确率由83%提高到了95.5%。 | ||
搜索关键词: | 一种 基于 语音 前端 噪声 消除 提高 识别 准确率 方法 | ||
【主权项】:
一种基于语音前端噪声消除的提高语音识别准确率的方法,其特征在于:所述方法采用计算听觉场景分析(CASA)实现语音识别前端的噪声消除,所述方法包括以下步骤:A.16KHz采样的带噪语音,先通过一个32通道的Gammatone滤波器,中心频率为50Hz~8KHz,对滤波后的信号加时间分辨率为20ms的矩形窗,帧率为100Hz;B.计算第i个频率第j帧的听觉谱的噪声包络和语音包络,计算公式为:envL(i,j)=|Σn=0N-1xLi,j(n)|envR(i,j)=|Σn=0N-1xRi,j(n)|]]>其中,i,j分别表示第i个频率,第j帧;N是一帧内的采样点的个数;x表示信号的时域振幅,下标L和R表示两个不同的声道;C.计算噪声通道和语音通道的互相关函数其中,τ是语音和噪声的特征时延,τ的取值范围是‑16到16,对应16KHz的采样率下的‑1ms到1ms的相对时间范围;D.通过互相关函数计算计算噪声通道和语音通道的ITD和ILD: ITD(i,j)=argmaxCCi,j(τ),E.通过将所有帧、所有频率信道上的互相关函数相加,求出该和的极值,即为语音和噪声的特征时延τ,判断哪一个声道输入的是语音信号,当τ为负时,L声道信号为纯语音;反之,R声道的信号为纯语音;F.采用简单的3状态单项状态跳转HMM模型计算第i个频率第j帧信号的掩模m(i,j),掩模信息用来估计语音包络,其中,结合B中的包络可以计算出分离出噪声的语音的包络谱:G.通过求解对数能量,提取每一帧语音的一个12维的谱系数向量,得到的谱系数向量直接作为语音识别的特征参数,具体采用以下公式:其中,I是Gammatone滤波器的数量,其取值为32,j、k分别表示第j帧中的第k个谱系数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学深圳研究生院,未经哈尔滨工业大学深圳研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410281240.3/,转载请声明来源钻瓜专利网。
- 上一篇:随机熔丝感测
- 下一篇:异构解码网络的构建方法及系统、语音识别方法及系统