[发明专利]一种腭裂语音喉塞音自动识别算法及装置在审
申请号: | 201510257555.9 | 申请日: | 2015-05-19 |
公开(公告)号: | CN104992707A | 公开(公告)日: | 2015-10-21 |
发明(设计)人: | 何凌;谭洁;尹恒;刘奇;郭春丽;严苗 | 申请(专利权)人: | 四川大学 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06 |
代理公司: | 成都九鼎天元知识产权代理有限公司 51214 | 代理人: | 袁春晓 |
地址: | 610064 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 腭裂 语音 喉塞音 自动识别 算法 装置 | ||
1.一种腭裂语音喉塞音自动识别算法,其特征在于,包括:
步骤1:采集待测音节语音信号;
步骤2:对所述音节语音信号进行声韵母切分,保留声母语音信号;
步骤3:提取所述声母语音信号的特征值;
步骤4:将所述特征值送入训练过的识别模型中,识别模型根据所述特征值判断所述音节语音信号中是否存在喉塞音。
2.根据权利要求1所述的一种腭裂语音喉塞音自动识别算法,其特征在于,所述步骤2进一步包括:
步骤21:对音节语音信号进行加窗分帧得到若干语音帧xi[n],i取1、2、3…M,n取1、2、3…N,N为帧长;
步骤22:计算每个语音帧的短时能量Ei及短时过零率Zi;
步骤23:计算相邻两帧的能量差e(i)和过零率差z(i):e(i)=Ei+1-Ei,i=1,2,…,M-1,z(i)=Zi+1-Zi,i=1,2,…,M-1;
步骤24:将每个能量差e(i)与阈值T1进行比较,将每个过零率差z(i)与阈值T2比较;当满足e(i)≥T1,同时z(i)≤T2时,设此时i=I;则取语音帧xi[n],i取1、2、3…I为音节语音信号的声母语音信号。
3.根据权利要求1所述的一种腭裂语音喉塞音自动识别算法,其特征在于,所述步骤3提取的声母语音信号特征值包括以下特征值中的一种或多种:频谱能量加强段特征值、MFCC声学特征值、临界频段短时功率谱特征值、小波变换与信息熵特征值、小波包变换与信息熵特征值;其中,
提取声母语音信号的频谱能量加强段特征值:计算每帧声母语音帧的第一到第五频谱能量加强段特征值;计算全部声母语音帧的第一频谱能量加强段特征值均值作为声母语音信号的第一频谱能量加强段特征值,以此类推,计算得到声母语音信号的第二到第五频谱能量加强段特征值;
提取声母语音信号的MFCC声学特征值:计算每帧声母语音帧的MFCC声学特征值,其中MFCC系数值取12,得到每帧声母语音帧的12个MFCC特征值;将全部声母语音信号帧的第一MFCC特征值的平均值作为声母语音信号的第一MFCC特征值,以此类推,计算得到声母语音信号的第二到第十二MFCC特征值;
提取声母语音信号的临界频段短时功率谱特征值:对每帧声母语音帧进行短时傅里叶变换,得到每帧声母语音帧的短时功率谱;按照临界频段划分规则将每帧声母语音帧的短时功率谱划分为20个临界频段;将全部声母语音帧的第一临界频段的功率叠加在一起得到声母语音信号的第一临界频段短时功率谱特征值,以此类推得到第二到第二十临界频段短时功率谱特征值;
提取声母语音信号的小波变换与信息熵特征值:对每帧声母语音帧进行三层小波变换,对三层小波分解后的信号进行重构得到4个重构后的信号,计算每个重构后的信号的信息熵;将全部声母语音信号帧的第一个重构后的信号的信息熵的平均值作为声母语音信号的第一小波变换与信息熵特征值,以此类推,计算得到声母语音信号的第二到第四小波变换与信息熵特征值;
提取声母语音信号的小波包变换与信息熵特征值:对每帧声母语音帧进行三层小波包变换,对三层小波包分解后的信号进行重构得到8个重构后的信号,计算每个重构后的信号的信息熵;将全部声母语音信号帧的第一个重构后的信号的信息熵的平均值作为声母语音信号的第一小波包变换与信息熵特征值,以此类推,计算得到声母语音信号的第二到第八小波变换与信息熵特征值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510257555.9/1.html,转载请声明来源钻瓜专利网。