[发明专利]一种抗噪语音识别系统有效
申请号: | 201810311359.9 | 申请日: | 2018-04-09 |
公开(公告)号: | CN108564965B | 公开(公告)日: | 2021-08-24 |
发明(设计)人: | 薛珮芸;史燕燕;白静;郭倩岩 | 申请(专利权)人: | 太原理工大学 |
主分类号: | G10L25/45 | 分类号: | G10L25/45;G10L25/27;G10L25/24;G10L21/0208;G10L15/06 |
代理公司: | 太原市科瑞达专利代理有限公司 14101 | 代理人: | 李富元 |
地址: | 030024 山西*** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及语音识别技术领域。一种抗噪语音识别系统,对于语音信号进行加窗分帧,然后做离散傅里叶变换,求出语音信号的幅值和相角;通过谱减运算得到估计信号的功率谱;利用谱减前的相位角信息对信号进行重构,得到谱减后的语音序列;对新的语音序列采用非线性幂函数模拟人耳听觉特性提取耳蜗滤波倒谱特征CFCC及其一阶差分△CFCC,并利用维度筛选法进行特征混合;对融合特征用数据归一化处理,得到训练集标签和测试集标签;将归一化后的训练集采用PCA进行降维,并带入SVM模型,得到识别准确率。 | ||
搜索关键词: | 一种 语音 识别 系统 | ||
【主权项】:
1.一种抗噪语音识别系统,其特征在于:按照如下的步骤进行:步骤一、对于语音信号s(n)进行加窗分帧,然后做离散傅里叶变换,求出语音信号的幅值和相角对语音信号s(n)进行加窗,采用的窗函数为汉明窗w(n):用窗函数w(n)乘以语音信号s(n),形成加窗语音信号x(n)x(n)=s(n)*w(n)对加窗语音信号x(n)进行分帧处理,则语音信号x(n)表示为xn(t),其中n为帧序号,t为帧同步的时间序号,N为帧长;对分帧后的语音信号xn(t)进行离散傅里叶变换:其中,j表示复数,e是常数,π是常数,谐波分量序号k=0,1,...,N‑1,则加窗语音信号x(n)的短时幅度谱估计为|X(n,k)|,相角为:将|X(n,k)|的值表示为语音信号的幅值,的值表示为语音信号的相角;步骤二、计算噪声段平均能量,通过谱减运算得到估计信号的功率谱;噪声段的时长为IS,其相应的帧数为NIS,噪声段的平均能量为:采用以下的谱减运算得到估计信号的功率谱其中,a1和b1是两个常数,a1为过减因子,a1为增益补偿因子;步骤三、利用谱减前的相位角信息对信号进行重构,得到谱减后的语音序列;用谱减后的功率谱结合谱减前的相位角信息进行IFFT,将频域还原到时域,得到的谱减后的语音序列步骤四、对谱减后的语音序列采用非线性幂函数模拟人耳听觉特性提取耳蜗滤波倒谱特征CFCC及其一阶差分△CFCC,并利用维度筛选法进行特征混合;听觉变换模拟了人耳听觉机理,是将耳蜗滤波函数作为一种新的小波基函数,运用小波变换实现滤波的过程;谱减后的语音序列经过听觉变换后在某一频带范围内的输出为:其中为耳蜗滤波函数,它的表达式为:上式中β>0,其中α和β的取值决定了耳蜗滤波函数的频域形状和宽度,u(t)为单位步进函数,b2为随时间可变的实数,a2为尺度变量,θ是初始相位,一般情况下可由滤波器组的中心频率fc和最低中心频率fL决定其中,一般的取值范围是而β一般取经验值β=0.2;人耳耳蜗的内毛细胞将经过听觉变换输出后的语音信号转变为人脑可分析的电信号:h(a2,b2)=[N(a2,b2)]2根据人耳的听觉特性,声音听觉神经对声音的响应持续时间会随着频率的增加而逐渐变短,说明了人耳对高频暂态成分更加敏感,因此对中心频率较高的耳蜗滤波器,需要适当缩短其时间平滑窗长。对于不同的频带选用不同的窗长,第i频带毛细胞函数平均值可以表示为:其中d=max{3.5τq,20ms},为第i频带的平滑窗长,τq是第p个滤波器中心频带中心频率的时间长度,τq=1/fc,L为帧移,L=d/2,w是窗的个数;毛细胞输出通过非线性幂函数完成响度变换,由能量值变为感知响度,第i个频带的感知响度可以表示为:y(i,w)=[S(i,w)]0.101最后再用离散余弦变换对所得的特征去相关,得到CFCC特征参数:其中,n1为CFCC特征的阶数,M是耳蜗滤波器的通道数;在提取CFCC参数后计算其一阶差分系数:dx(n1)表示第x帧语音信号的一阶差分CFCC参数的第n1阶系数,k为常数,一般取k=2;分别提取出16阶CFCC和△CFCC之后,对特征进行维度筛选,选取最能表征语音特征的部分再进行特征混合;步骤五、在CFCC+△CFCC特征基础上,加入TEOCC构成融合特征;对每一帧语音信号x(n)计算其TEO能量:ψ[x(n)]=x(n)2‑x(n+1)x(n‑1)进行归一化处理并取对数得到:最后进行DCT变换得到一维的TEOCC;将一维的TEOCC特征加入到混合特征向量的最后一维中;步骤六、对融合特征用数据归一化处理,形成归一化训练集和归一化测试集两部分,分别给两个集合加注标签,得到训练集标签和测试集标签;特征训练集和特征测试集中任意一个数据样本为yyi,进行归一化处理后,归一化训练集和归一化测试集中对应的数据样本为:其中ywin和ywax代表yi各自的极小值和极大值。步骤七、将归一化后的训练集采用PCA进行降维,并带入SVM模型,得到识别准确率将降维后的语音特征划分为训练集train_data和测试集test_data两部分,分别添加训练集标签train_label和测试集标签test_label,把训练集输入SVM建立模型model:model=svmtrain(train_label,train_data)用建立好的模型对测试集进行测试得到识别准确率accuracy:accuracy=svmpredict(test_label,test_data)。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于太原理工大学,未经太原理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810311359.9/,转载请声明来源钻瓜专利网。
- 上一篇:一种语音信息验证方法
- 下一篇:语音测试的方法及其设备、具有存储功能的装置