[发明专利]一种基于GFCC的改进特征参数的语种识别方法有效
申请号: | 202110329394.5 | 申请日: | 2021-03-28 |
公开(公告)号: | CN113257226B | 公开(公告)日: | 2022-06-28 |
发明(设计)人: | 邵玉斌;陈亮;龙华;杜庆治;杨贵安;唐维康;刘晶 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G10L15/00 | 分类号: | G10L15/00;G10L15/02;G10L15/06;G10L25/18;G10L25/24 |
代理公司: | 昆明明润知识产权代理事务所(普通合伙) 53215 | 代理人: | 王鹏飞 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 gfcc 改进 特征 参数 语种 识别 方法 | ||
1.一种基于GFCC的改进特征参数的语种识别方法,其特征在于:
Step1:对每条语音数据提取不同维度的GFCC参数;
Step2:对任意维度的GFCC参数,将其后面若干维数数据置零,然后进行IDCT变换;
得到GFCC特征参数后,将后面的若干维的参数置零,但置零的维数不能大于GFCC参数维数减1,假设GFCC参数为n维,那么置零的维数应小于n-1;
Step3:对后面若干维GFCC参数置零后进行IDCT变换,得到改进的GFCC参数,命名为G-Fbank;
Step4:G-Fbank参数输入到语种训练模型中进行训练,得到不同语种的识别模型;
Step5:对识别语音提取G-Fbank参数,放入训练好的模型中进行识别,得到最终识别结果。
2.根据权利要求1所述的基于GFCC的改进特征参数的语种识别方法,其特征在于所述Step1具体为:
Step1.1:预处理;
首先通过式(1)对语音进行归一化;
式中,xi为输入的语音序列,x为进行归一化后的语音序列;
对语音进行分帧,分帧的帧移取帧长的一半,再对每帧信号加窗,分帧后的信号为x(m)(n),则y(m)(n)为加窗后的信号,w(n)为窗函数,表示为:
y(m)(n)=x(m)(n).w(n) (2)
然后对分帧加窗后的语音序列进行FFT变换,将数据从时域变为频域,频域信号记为y(m)(k),其中m为语音帧数;
Step1.2:计算通过Gammatone滤波器滤波后的能量;
Gammatone滤波器频域表达式为:
式中,Y(f)是指数和阶跃函数的傅里叶变换,S(f)是频率为f0的余弦函数的傅里叶变换,H(f)是滤波器的频域表达;
经过滤波器后的频域表达式为:
式中,m代表第m帧,i代表第i个Gammatone滤波器,Y(m,i)代表第m帧通过第i个滤波器后的频域信号;
Step1.3:进行DCT变换,得到GFCC特征参数;
对通过Gammatone滤波器后的信号取对数后,再进行离散余弦变换,得到GFCC特征参数,其表达式为:
式中,m代表第m帧,i代表第i个Gammatone滤波器,n是DCT后的谱线。
3.根据权利要求1所述的基于GFCC的改进特征参数的语种识别方法,其特征在于所述Step2具体为:
Step2.1:对任意维度的GFCC参数,将其后面若干维数数据置零,但置零的维数不能大于GFCC参数维数减1,即,若GFCC参数为n维,则置零的维数应小于n-1;
每一帧的原始GFCC参数表达式为:
gfcc(m)=[x1,x2,x3,x4,...,xn-2,xn-1,xn] (6)
式中,x1到xn为一帧的GFCC参数,m代表第m帧;
将其后面若干维数数据置零后为:
gfcc'(m)=[x1,x2,x3,x4,...,0,0,0] (7)
Step2.2:对数据置零后的GFCC参数进行IDCT变换;
式中,y(i)代表进行离散余弦逆变换后的信号,i代表第i个Gammatone滤波器,u代表DCT的谱线,Y(u)为进行IDCT之前的信号,N为Gammatone滤波器总个数;
其中,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110329394.5/1.html,转载请声明来源钻瓜专利网。