[发明专利]一种语音检测方法及装置有效
申请号: | 201910594785.2 | 申请日: | 2019-07-03 |
公开(公告)号: | CN110349597B | 公开(公告)日: | 2021-06-25 |
发明(设计)人: | 冷严;林蝉;赵玮玮;齐广慧;李登旺 | 申请(专利权)人: | 山东师范大学 |
主分类号: | G10L25/60 | 分类号: | G10L25/60;G10L25/24;G10L15/08;G10L15/06 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 张庆骞 |
地址: | 250014 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 检测 方法 装置 | ||
本公开提供了语音检测方法及装置。语音检测方法包括构建语音检测模型;其由第一GMM模型、第二GMM模型和LSTM模型并联连接之后再与RNN模型串联构成;训练语音检测模型的过程为:利用语音数据、非语音数据及语音和非语音混合数据分别对应训练第一GMM模型、第二GMM模型和LSTM模型,输出相应识别得分值,组成一个三维向量,作为音频片段的向量表征;将每个时刻、每个时刻前一时刻及后一时刻的音频片段向量表征组成一个时间序列,作为输入量来训练RNN模型;测试音频数据的过程为:分割测试音频数据为若干个音频片段,再逐个输入至训练完成的语音检测模型,得到相应时刻的音频片段属于语音的概率值,通过对比概率值和设定阈值将音频片段判别为语音或非语音。
技术领域
本公开属于语音检测领域,尤其涉及一种语音检测方法及装置。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
语音检测作为音频检测领域的重要内容之一,得到了广泛关注。语音检测具有广阔的应用前景,可以作为语音识别技术的前端预处理,从音频数据中检测出待识别的语音数据,提高语音的识别效率;语音检测也可以从会议录音中检测出某个人的发言,形成会议摘要。随着深度学习技术的快速发展,在语音检测领域,深度神经网络逐渐代替传统常用的机器学习模型进行分类。音频检测领域传统常用的机器学习模型有高斯混合模型(Gaussian Mixture Model,GMM)、隐马尔可夫模型(Hidden Markov Model,HMM)、支持向量机(Support Vector Machine,SVM)等。
发明人发现,传统机器学习模型存在以下问题:
1)传统机器学习模型得到的音频频谱维度较高,使得神经网络的运算量大,耗费神经网络的训练和分类时间多,运算效率低;
2)传统机器学习模型提取的音频样本中的重要信息存在冗余信息的干扰,使得分类模型不能很好地识别出语音样本,降低了检测准确率。
发明内容
为了解决上述问题,本公开的第一个方面提供一种语音检测方法,其将GMM模型、LSTM模型和RNN模型有效结合,能够充分发挥三个模型各自的优势,以提高语音检测模型整体的分类检测能力。
为了实现上述目的,本公开采用如下技术方案:
一种语音检测方法,包括:
构建语音检测模型;所述语音检测模型由第一GMM模型、第二GMM模型和LSTM模型并联连接之后再与RNN模型串联构成;
训练语音检测模型;其过程为:
利用语音数据、非语音数据及语音和非语音混合数据分别对应训练第一GMM模型、第二GMM模型和LSTM模型,输出相应识别得分值,进而组成一个三维向量,作为音频片段的向量表征;
将每个时刻、每个时刻前一时刻及后一时刻的音频片段向量表征组成一个时间序列,作为输入量来训练RNN模型,直至输出的所有时刻的音频片段属于语音的平均概率值偏差符合预设精度要求;
测试音频数据;其过程为:
分割测试音频数据为若干个音频片段,再将音频片段逐个输入至训练完成的语音检测模型,得到相应时刻的音频片段属于语音的概率值。
进一步地,若概率值大于或等于设定阈值,则判断相应时刻的音频片段属于语音;否则,判断相应时刻的音频片段不属于语音。
该技术方案的优点在于,通过将音频片段属于语音的概率值与设定阈值比较,来判断相应时刻的音频片段是否属于语音,使得检测结果更加直观。
进一步地,训练第一GMM模型的过程为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东师范大学,未经山东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910594785.2/2.html,转载请声明来源钻瓜专利网。