[发明专利]一种基于语音前端噪声消除的提高语音识别准确率的方法有效

专利信息
申请号: 201410281240.3 申请日: 2014-06-20
公开(公告)号: CN104064196B 公开(公告)日: 2017-08-01
发明(设计)人: 刘明;王明江 申请(专利权)人: 哈尔滨工业大学深圳研究生院
主分类号: G10L21/0308 分类号: G10L21/0308;G10L25/84
代理公司: 深圳市科吉华烽知识产权事务所(普通合伙)44248 代理人: 陈本发,刘显扬
地址: 518000 广东省深*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 语音 前端 噪声 消除 提高 识别 准确率 方法
【权利要求书】:

1.一种基于语音前端噪声消除的提高语音识别准确率的方法,其特征在于:所述方法采用计算听觉场景分析(CASA)实现语音识别前端的噪声消除,所述方法包括以下步骤:

A.16KHz采样的带噪语音,先通过一个32通道的Gammatone滤波器,中心频率为50Hz~8KHz,对滤波后的信号加时间分辨率为20ms的矩形窗,帧率为100Hz;

B.计算第i个频率第j帧的听觉谱的噪声包络和语音包络,计算公式为:

<mfenced open = "{" close = ""><mtable><mtr><mtd><mrow><msub><mi>env</mi><mi>L</mi></msub><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow><mo>=</mo><mo>|</mo><munderover><mo>&Sigma;</mo><mrow><mi>n</mi><mo>=</mo><mn>0</mn></mrow><mrow><mi>N</mi><mo>-</mo><mn>1</mn></mrow></munderover><msubsup><mi>x</mi><mi>L</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow></msubsup><mrow><mo>(</mo><mi>n</mi><mo>)</mo></mrow><mo>|</mo></mrow></mtd></mtr><mtr><mtd><mrow><msub><mi>env</mi><mi>R</mi></msub><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow><mo>=</mo><mo>|</mo><munderover><mo>&Sigma;</mo><mrow><mi>n</mi><mo>=</mo><mn>0</mn></mrow><mrow><mi>N</mi><mo>-</mo><mn>1</mn></mrow></munderover><msubsup><mi>x</mi><mi>R</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow></msubsup><mrow><mo>(</mo><mi>n</mi><mo>)</mo></mrow><mo>|</mo></mrow></mtd></mtr></mtable></mfenced>

其中,i,j分别表示第i个频率,第j帧;N是一帧内的采样点的个数;

x表示信号的时域振幅,下标L和R表示两个不同的声道;

C.计算噪声通道和语音通道的互相关函数

<mrow><msup><mi>CC</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow></msup><mrow><mo>(</mo><mi>&tau;</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mfrac><mn>1</mn><mi>N</mi></mfrac><munderover><mo>&Sigma;</mo><mn>0</mn><mrow><mi>N</mi><mo>-</mo><mn>1</mn></mrow></munderover><mo>|</mo><msubsup><mi>x</mi><mi>S</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow></msubsup><mrow><mo>(</mo><mi>n</mi><mo>)</mo></mrow><msubsup><mi>x</mi><mi>N</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow></msubsup><mrow><mo>(</mo><mi>n</mi><mo>-</mo><mi>&tau;</mi><mo>)</mo></mrow><mo>|</mo></mrow><mrow><msqrt><mrow><mfrac><mn>1</mn><mi>N</mi></mfrac><munderover><mo>&Sigma;</mo><mn>0</mn><mrow><mi>N</mi><mo>-</mo><mn>1</mn></mrow></munderover><msup><mrow><mo>|</mo><msubsup><mi>x</mi><mi>S</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow></msubsup><mrow><mo>(</mo><mi>n</mi><mo>)</mo></mrow><mo>|</mo></mrow><mn>2</mn></msup></mrow></msqrt><msqrt><mrow><mfrac><mn>1</mn><mi>N</mi></mfrac><munderover><mo>&Sigma;</mo><mn>0</mn><mrow><mi>N</mi><mo>-</mo><mn>1</mn></mrow></munderover><msup><mrow><mo>|</mo><msubsup><mi>x</mi><mi>N</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow></msubsup><mrow><mo>(</mo><mi>n</mi><mo>-</mo><mi>&tau;</mi><mo>)</mo></mrow><mo>|</mo></mrow><mn>2</mn></msup></mrow></msqrt></mrow></mfrac><mo>,</mo></mrow>

其中,τ是语音和噪声的特征时延,τ的取值范围是-16到16,对应16KHz的采样率下的-1ms到1ms的相对时间范围;

D.通过互相关函数计算计算噪声通道和语音通道的ITD和ILD:

ITD(i,j)=argmaxCCi,j(τ),

<mrow><mi>I</mi><mi>L</mi><mi>D</mi><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow><mo>=</mo><mn>20</mn><msub><mi>log</mi><mn>10</mn></msub><mo>&lsqb;</mo><mfrac><mrow><msub><mi>env</mi><mi>L</mi></msub><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow></mrow><mrow><msub><mi>env</mi><mi>R</mi></msub><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow></mrow></mfrac><mo>&rsqb;</mo><mo>;</mo></mrow>

E.通过将所有帧、所有频率信道上的互相关函数相加,求出该和的极值,即为语音和噪声的特征时延τ,

<mrow><mi>&tau;</mi><mo>=</mo><mi>arg</mi><mi> </mi><mi>m</mi><mi>a</mi><mi>x</mi><munder><mo>&Sigma;</mo><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow></munder><msup><mi>CC</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow></msup><mrow><mo>(</mo><mi>&tau;</mi><mo>)</mo></mrow><mo>;</mo></mrow>

判断哪一个声道输入的是语音信号,当τ为负时,L声道信号为纯语音;

反之,R声道的信号为纯语音;

F.采用简单的3状态单项状态跳转HMM模型计算第i个频率第j帧信号的掩模m(i,j),掩模信息用来估计语音包络,其中,

<mrow><mi>m</mi><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mrow><mn>1</mn><mo>+</mo><mi>exp</mi><mo>{</mo><mo>&lsqb;</mo><mi>I</mi><mi>T</mi><mi>D</mi><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow><mo>-</mo><mn>0.5</mn><mo>&rsqb;</mo><mo>&lsqb;</mo><mi>I</mi><mi>L</mi><mi>D</mi><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow><mo>-</mo><mn>0.5</mn><mo>)</mo><mo>&rsqb;</mo><mo>}</mo></mrow></mfrac><mo>,</mo></mrow>

结合B中的包络可以计算出分离出噪声的语音的包络谱:

<mrow><msub><mi>env</mi><mi>M</mi></msub><mo>=</mo><mfenced open = "{" close = ""><mtable><mtr><mtd><mrow><msub><mi>env</mi><mi>L</mi></msub><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow><mo>&CenterDot;</mo><mi>m</mi><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow></mrow></mtd><mtd><mrow><msub><mi>&tau;</mi><mrow><mi>m</mi><mi>a</mi><mi>x</mi></mrow></msub><mo>&lt;</mo><mn>0</mn></mrow></mtd></mtr><mtr><mtd><mrow><msub><mi>env</mi><mi>R</mi></msub><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow><mo>&CenterDot;</mo><mi>m</mi><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow></mrow></mtd><mtd><mrow><msub><mi>&tau;</mi><mrow><mi>m</mi><mi>a</mi><mi>x</mi></mrow></msub><mo>&GreaterEqual;</mo><mn>0</mn></mrow></mtd></mtr></mtable></mfenced><mo>;</mo></mrow>

G.通过求解对数能量,提取每一帧语音的一个12维的谱系数向量,得到的谱系数向量直接作为语音识别的特征参数,具体采用以下公式:

<mrow><mi>c</mi><mrow><mo>(</mo><mi>j</mi><mo>,</mo><mi>k</mi><mo>)</mo></mrow><mo>=</mo><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>I</mi></munderover><mi>l</mi><mi>n</mi><mo>&lsqb;</mo><msub><mi>env</mi><mi>M</mi></msub><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow><mo>&rsqb;</mo><mi>c</mi><mi>o</mi><mi>s</mi><mo>&lsqb;</mo><mfrac><mrow><mi>k</mi><mi>&pi;</mi></mrow><mi>I</mi></mfrac><mrow><mo>(</mo><mi>i</mi><mo>-</mo><mn>0.5</mn><mo>)</mo></mrow><mo>&rsqb;</mo><mo>,</mo></mrow>

其中,I是Gammatone滤波器的数量,其取值为32,j、k分别表示第j帧中的第k个谱系数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学深圳研究生院,未经哈尔滨工业大学深圳研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410281240.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top