[发明专利]一种语音检测方法及装置有效
申请号: | 201910594785.2 | 申请日: | 2019-07-03 |
公开(公告)号: | CN110349597B | 公开(公告)日: | 2021-06-25 |
发明(设计)人: | 冷严;林蝉;赵玮玮;齐广慧;李登旺 | 申请(专利权)人: | 山东师范大学 |
主分类号: | G10L25/60 | 分类号: | G10L25/60;G10L25/24;G10L15/08;G10L15/06 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 张庆骞 |
地址: | 250014 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 检测 方法 装置 | ||
1.一种语音检测方法,其特征在于,包括:
构建语音检测模型;所述语音检测模型由第一GMM模型、第二GMM模型和LSTM模型并联连接之后再与RNN模型串联构成;
训练语音检测模型;其过程为:
利用语音数据、非语音数据及语音和非语音混合数据分别对应训练第一GMM模型、第二GMM模型和LSTM模型,输出相应识别得分值,进而组成一个三维向量,作为音频片段的向量表征;
将每个时刻、每个时刻前一时刻及后一时刻的音频片段向量表征组成一个时间序列,作为输入量来训练RNN模型,直至输出的所有时刻的音频片段属于语音的平均概率值偏差符合预设精度要求;
测试音频数据;其过程为:
分割测试音频数据为若干个音频片段,再将音频片段逐个输入至训练完成的语音检测模型,得到相应时刻的音频片段属于语音的概率值。
2.如权利要求1所述的语音检测方法,其特征在于,在求得测试音频片段属于语音的概率值后,若概率值大于或等于设定阈值,则判断相应时刻的音频片段属于语音;否则,判断相应时刻的音频片段不属于语音。
3.如权利要求1所述的语音检测方法,其特征在于,训练第一GMM模型的过程为:
将仅含有语音数据的音频片段分帧处理,提取每帧音频的预设维的梅尔频率倒谱系数作为音频特征,形成一个训练样本并存储至第一训练样本集合内;
将第一训练样本集合内的训练样本输入至第一GMM模型中,输出各帧音频的语音识别得分值,将音频片段内所有帧的语音识别得分值取平均,得到相应音频片段的语音识别得分值;
通过期望最大化算法由第一训练样本集合内的训练样本训练得到第一GMM模型的所有参数;
或
训练第二GMM模型的过程为:
将仅含有非语音数据的音频片段分帧处理,提取每帧音频的预设维的梅尔频率倒谱系数作为音频特征,形成一个训练样本并存储至第二训练样本集合内;
将第二训练样本集合内的训练样本输入至第二GMM模型中,输出各帧音频的非语音识别得分值,将音频片段内所有帧的非语音识别得分值取平均,得到相应音频片段的非语音识别得分值;
通过期望最大化算法由第二训练样本集合内的训练样本训练得到第二GMM模型的所有参数。
4.如权利要求1所述的语音检测方法,其特征在于,训练LSTM模型的过程为:
将含有语音数据和非语音数据的音频片段分帧处理,提取每帧音频的预设维的梅尔频率倒谱系数作为音频特征,将这些音频特征按照时间顺序排列构成一个时间序列;
将上述时间序列输入至LSTM模型中,输出得到相应音频片段的识别得分值;
采用Adam优化算法训练LSTM模型,直至LSTM模型的参数达到最优。
5.如权利要求1所述的语音检测方法,其特征在于,训练RNN模型的过程为:
将训练好的第一GMM模型、第二GMM模型和LSTM模型分别输出的识别得分值组成一个三维向量,作为音频片段的向量表征;
将当前时刻、前一时刻及后一时刻的音频片段向量表征组成一个时间序列,作为输入量来训练RNN模型,输出得到当前时刻音频片段属于语音的概率值;
采用Adam优化算法训练RNN模型,直至输出的所有时刻的音频片段属于语音的平均概率值偏差符合预设精度要求。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东师范大学,未经山东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910594785.2/1.html,转载请声明来源钻瓜专利网。