[发明专利]一种基于Fisher准则以提高语音识别率的混合特征组合算法在审
申请号: | 201710933414.3 | 申请日: | 2017-10-10 |
公开(公告)号: | CN107871498A | 公开(公告)日: | 2018-04-03 |
发明(设计)人: | 龙华;张琳;邵玉斌;杜庆治 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/14;G10L15/20 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 fisher 准则 提高 语音 识别率 混合 特征 组合 算法 | ||
技术领域
本发明涉及一种基于Fisher准则以提高语音识别率的混合特征组合算法,属于音频信号处理技术领域。
背景技术
目前语音识别已经在许多领域得到应有,如进入控制、电子银行远程登录、快速通关系统等等。在语音识别中,最终的训练和识别环节是针对语音的特征参数进行的,因此特征提取在识别过程中的作用非常关键。其中关键技术之一在于如何在一定程度上消除特征的信息冗余,实现客观的信息压缩,从而有利于信息的实时处理。利用Fisher准则来分析特征向量,确定鉴别矢量集,使其在最佳鉴别矢量方向上模式具有最大的可分性是一种广泛使用的特征降维方法。不同的特征参数语音信号不同的特点,如果直接将它们叠加组合会产生一些问题,增加了特征参数的维数,增加了计算量。由于各维特征参数对识别的贡献不同,有些参数可能包含的信息量较少,有些包含的可能是冗余信息,如果将他们同等对待,最终会影响识别性能。所以必须对各维参数对识别结果的影响程度进行评价,得到对识别影响最大的参数,然后组合作为新的特征参数。通过计算特征分量的Fisher比得到各分量的区分能力。本文就是利用实验的方法,通过计算不同组合的混合特征参数,进而找到另语音识别率最高的混合特征参数组合。
发明内容
本发明要解决的技术问题是提供一种基于Fisher准则以提高语音识别率的混合特征组合算法,寻找令语音识别率最高的混合特征组合。
本发明的技术方案是:一种基于Fisher准则以提高语音识别率的混合特征组合算法,首先对语音信号进行预处理,预处理过程包括:预加重、分帧处理、加窗函数。再对预处理后的语音信号提取特征参数,提取的特征参数有:MFCC(梅尔频率倒谱系数)、IMFCC(逆梅尔频率倒谱系数)、MidMFCC(中频梅尔频率倒谱系数)、LPC(线性预测系数)、LPCC(线性预测倒谱系数)、LPMFCC(线性预测梅尔倒谱系数)和Teager能量算子倒谱参数(TEOCC)。然后,计算MFCC、IMFCC、MidMFCC、LPC、LPCC和LPMFCC参数中各维分量的Fisher比。把特征参数分别进行组合,然后与TEOCC参数组合成混合特征参数,混合特征参数的维数为25维,TEOCC参数取一维,其余组成混合特征的每一种参数维数相同。除了TEOCC参数,其余的每一种特征参数均计算24维的Fisher比,针对不同的混合特征组合,选取各特征所需维数的Fisher比值高的分量。最后,利用录制好的WAV文件进行语音识别实验,选出识别率最高的混合特征参数组合。
具体步骤为:
(1)预处理:预处理过程分为三个步骤:预加重处理、分帧处理、加窗函数;
(2)特征提取:分别提取表征语音信息的特征参数:MFCC、IMFCC、MidMFCC、LPC、LPCC、LPMFCC和TEOCC;
(3)特征组合:把不同的特征参数分别进行组合成新的混合特征参数;
(4)计算Fisher比:除了TEOCC参数,剩余的六种特征参数,每一种均计算24维分量的Fisher比;
(5)选取特征分量:计算每一种特征参数的Fisher比,选出在每一种混合特征中,每一种特征所需维数的Fisher比高的分量。
(6)计算识别率:进行语音识别实验,利用高斯混合模型,分别在不同的噪声环境下进行语音识别率的计算。
(7)获取最佳特征组合:在不同的噪声环境下,同一组混合特征计算的语音识别率可能不同,所以选出在不同噪声环境下,语音识别率最高的特征组合。即选出在不同噪声环境下孤立字语音识别率最高的组合为最佳混合特征组合。
上述的一种基于Fisher准则以提高语音识别率的混合特征组合算法,步骤(1)中预处理,其中把待测音频信号进行分帧处理:音频序列是时间轴上的一维信号,为了能够对其进行信号分析,需要假设音频信号在毫秒级别的短时间处于稳定状态,因此在此基础上对音频信号进行分帧操作。对音频信号分帧处理可采用连续分段的方法,但为了使帧与帧之间平滑过渡保持其连续性,一般会采用交叠分段的方法。分帧是用可移动的有限长度窗口进行加权的方法来实现的,也就是用一定的窗函数w(n)来乘音频信号s(n),从而形成加窗的音频信号sw(n)=s(n)×w(n);
上述的一种基于Fisher准则以提高语音识别率的混合特征组合算法,步骤(2)中特征提取:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710933414.3/2.html,转载请声明来源钻瓜专利网。