[发明专利]一种命令词识别方法及计算机存储介质有效
申请号: | 201810954189.6 | 申请日: | 2018-08-21 |
公开(公告)号: | CN109065043B | 公开(公告)日: | 2022-07-05 |
发明(设计)人: | 赵定金 | 申请(专利权)人: | 广州市保伦电子有限公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L25/03;G10L25/24;G10L25/45;G10L15/26 |
代理公司: | 广州君咨知识产权代理有限公司 44437 | 代理人: | 谭启斌 |
地址: | 511400 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 命令 识别 方法 计算机 存储 介质 | ||
1.一种命令词识别方法,其特征在于,包括以下步骤:
获取待识别语音的有效语音;
获取有效语音的MFCC特征系数;
将有效语音的MFCC特征系数与预设的若干MFCC特征系数依次通过DTW相似性算法进行匹配,得到若干MFCC特征系数对应的若干相似值;所述预设的若干MFCC特征系数为预设的若干命令词对应的MFCC特征系数;
当某一相似值小于预设相似值时,则判断有效语音的MFCC特征系数与该相似值对应的MFCC特征系数匹配成功,并提取匹配成功的MFCC特征系数对应的命令词;
获取待识别语音的有效语音的步骤包括:
获取待识别语音的开始点和结束点;所述待识别语音的有效语音为以所述开始点开始,并以所述结束点结束的完整语音;
获取待识别语音的开始点和结束点包括以下步骤:
根据预设的采样频率和采样大小对待识别语音依次进行采样,得到若干采样音频数据,所述采样音频数据对应待识别语音的若干采样点;将所有采样音频数据依次通过FFT傅里叶变换得到若干采样频谱;
获取所有采样频谱频率位于100~1000Hz的能量值;并将所述能量值依次与预设能量值N1进行对比;
获取所有采样频谱频率位于300~1000Hz频段内的能量方差;并将所述能量方差依次与预设能量值n2进行对比;
当采样频谱频率中频率位于300~1000Hz频段获取的能量值大于预设能量值N1,且获取的能量方差大于预设能量值n2时,则判断该采样频谱对应的采样点位于有效语音的范围;
当采样频谱频率中频率位于300~1000Hz频段获取的能量值未大于预设能量值N1或获取的能量方差未大于预设能量值n2时,则判断该采样频谱对应的采样点位于噪音的范围;
将位于完整语音的范围的所有采样点按时序排列,得到按时序排列的完整语音的采样点序列,以有效语音的采样点序列中的第一采样点为有效语音的开始点;
将位于噪音的范围的采样点、且采样点采样时间位于有效语音的开始点之后的所有采样点按时序排列,得到按时序排列的噪音的采样点序列,以噪音的采样点序列中第一采样点为有效语音的结束点。
2.根据权利要求1所述的命令词识别方法,其特征在于,获取有效语音的MFCC特征系数的步骤具体包括:
对有效语音依次进行分帧和加汉明窗,得到分帧加窗后的有效语音;
对分帧加窗后的有效语音提取MFCC特征系数。
3.根据权利要求2所述的命令词识别方法,其特征在于,对分帧加窗后的有效语音提取MFCC特征系数的步骤具体包括:
对分帧加窗后的有效语音进行FFT傅里叶变换,得到有效语音频谱;将有效语音频谱通过滤波器组进行,并计算通过滤波器组的有效语音频谱共振峰;根据得到的共振峰计算有效语音频谱的对数能量值x(m),根据得到的对数能量值x(m)计算有效语音频谱的MFCC特征系数。
4.根据权利要求3所述的命令词识别方法,其特征在于,对有效语音依次进行分帧和加汉明窗,得到分帧加窗的有效语音的步骤包括:
根据预设帧长N和帧移对有效语音进行分帧,得到n帧分帧有效语音;将得到的n帧分帧有效语音均加汉明窗,汉明窗的数值W满足以下公式:
其中,N为预设帧长,n为自然数。
5.根据权利要求3所述的命令词识别方法,其特征在于,所述共振峰Hm(k)满足以下公式:
其中,Hm(k)为有效语音频谱中频率为k的频谱通过第m个滤波器时的共振峰,f(m)为第m个滤波器对应的中心频率,m为自然数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州市保伦电子有限公司,未经广州市保伦电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810954189.6/1.html,转载请声明来源钻瓜专利网。