[发明专利]基于感知谱收敛率的语音识别方法有效
申请号: | 202110071190.6 | 申请日: | 2021-01-19 |
公开(公告)号: | CN112863517B | 公开(公告)日: | 2023-01-06 |
发明(设计)人: | 陶智;周长伟;吴迪;伍远博;范子琦 | 申请(专利权)人: | 苏州大学 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L15/08;G10L15/06;G10L15/04;G10L25/24 |
代理公司: | 苏州市中南伟业知识产权代理事务所(普通合伙) 32257 | 代理人: | 许燕萍 |
地址: | 215000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 感知 收敛 语音 识别 方法 | ||
1.一种基于感知谱收敛率的语音识别方法,其特征在于,包括以下步骤:
对语音信号进行多频带划分,得到分频带的语音信号;
对分频带语音信号分帧,对每一频带的每一帧语音信号作傅里叶变换,计算傅里叶变换后所有帧的频谱图的峰值之和和频谱图的动态范围,所述频谱图的动态范围为频谱图的峰值与谷值之差;结合频谱图的峰值之和和频谱图的动态范围进行非线性压缩得到语音信号的感知谱收敛率,所述感知谱收敛率GTSL的计算公式为:
将感知谱收敛率分为训练集和测试集,使用训练集训练分类器得到训练完成的分类器,将测试集输入训练完成的分类器进行语音识别。
2.根据权利要求1所述的基于感知谱收敛率的语音识别方法,其特征在于:所述对语音信号进行多频带划分,具体为使用Gammatone滤波器对语音信号进行多频带划分,得到多个频带的语音信号。
3.根据权利要求2所述的基于感知谱收敛率的语音识别方法,其特征在于:所述使用Gammatone滤波器对语音信号进行多频带划分时,Gammatone滤波器采用等效矩形带宽的过滤方法,Gammatone滤波器的时域表达形式为:
gi(t)=at(n-1)e-2πBtcos(2πfit+φ)u(t),
其中t为时间变量,Ф为滤波器初始相位,fi为第i通道滤波器的中心频率,a为Gammatone滤波器的幅度,B为与等效矩形带宽有关的参数;n为滤波器阶数,用于模拟人耳基底膜的滤波特性。
4.根据权利要求3所述的基于感知谱收敛率的语音识别方法,其特征在于:所述第i通道滤波器的中心频率fi为:其中C为与品质因子和带宽有关的参数,fl和fh是滤波器的最低和最高频率,K为滤波器的个数;
所述与等效矩形带宽有关的参数B的计算公式为B=b1·ERB(fi),其中等效矩形带宽ERB(fi)的计算公式为ERB(fi)=24.7+0.108fi,b1为等效矩形带宽增益。
5.根据权利要求1所述的基于感知谱收敛率的语音识别方法,其特征在于:所述对分频带语音信号分帧的方法为采用汉明窗对对分频带语音信号进行分帧,分帧公式为xi(n)=X(n)·gi(n)→yij(n),j=1,2,3…m,其中X(n)为原始语音信号,xi(n)为第i个频率通道的语音信号,yij(n)为第i个频率通道的第j帧的语音信号。
6.根据权利要求1所述的基于感知谱收敛率的语音识别方法,其特征在于:所述傅里叶变换的公式为其中Si为第i个频率通道的功率谱,ω(n-k)为汉明窗函数,k为语音序列每个采样点的索引。
7.根据权利要求6所述的基于感知谱收敛率的语音识别方法,其特征在于:所述第i个频率通道的功率谱Si的计算公式为其中C11...Cmn为所有帧功率谱的幅度值。
8.根据权利要求1所述的基于感知谱收敛率的语音识别方法,其特征在于:所述计算傅里叶变换后所有帧的频谱图的峰值之和和频谱图的动态范围中,频谱图的峰值之和Emaxi的计算公式为其中C(j,k)为第j帧语音信号功率谱的第k个幅度值。
9.根据权利要求1所述的基于感知谱收敛率的语音识别方法,其特征在于:所述计算傅里叶变换后所有帧的频谱图的峰值之和和频谱图的动态范围中,频谱图的动态范围ΔEi的计算公式为其中C(j,k)为第j帧语音信号功率谱的第k个幅度值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110071190.6/1.html,转载请声明来源钻瓜专利网。