[发明专利]一种语音检测方法及装置有效

申请号：	201910594785.2	申请日：	2019-07-03
公开（公告）号：	CN110349597B	公开（公告）日：	2021-06-25
发明（设计）人：	冷严;林蝉;赵玮玮;齐广慧;李登旺	申请（专利权）人：	山东师范大学
主分类号：	G10L25/60	分类号：	G10L25/60;G10L25/24;G10L15/08;G10L15/06
代理公司：	济南圣达知识产权代理有限公司 37221	代理人：	张庆骞
地址：	250014 山***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语音检测方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开提供了语音检测方法及装置。语音检测方法包括构建语音检测模型；其由第一GMM模型、第二GMM模型和LSTM模型并联连接之后再与RNN模型串联构成；训练语音检测模型的过程为：利用语音数据、非语音数据及语音和非语音混合数据分别对应训练第一GMM模型、第二GMM模型和LSTM模型，输出相应识别得分值，组成一个三维向量，作为音频片段的向量表征；将每个时刻、每个时刻前一时刻及后一时刻的音频片段向量表征组成一个时间序列，作为输入量来训练RNN模型；测试音频数据的过程为：分割测试音频数据为若干个音频片段，再逐个输入至训练完成的语音检测模型，得到相应时刻的音频片段属于语音的概率值，通过对比概率值和设定阈值将音频片段判别为语音或非语音。

技术领域

本公开属于语音检测领域，尤其涉及一种语音检测方法及装置。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

语音检测作为音频检测领域的重要内容之一，得到了广泛关注。语音检测具有广阔的应用前景，可以作为语音识别技术的前端预处理，从音频数据中检测出待识别的语音数据，提高语音的识别效率；语音检测也可以从会议录音中检测出某个人的发言，形成会议摘要。随着深度学习技术的快速发展，在语音检测领域，深度神经网络逐渐代替传统常用的机器学习模型进行分类。音频检测领域传统常用的机器学习模型有高斯混合模型(Gaussian Mixture Model,GMM)、隐马尔可夫模型(Hidden Markov Model,HMM)、支持向量机(Support Vector Machine,SVM)等。

发明人发现，传统机器学习模型存在以下问题：

1)传统机器学习模型得到的音频频谱维度较高，使得神经网络的运算量大，耗费神经网络的训练和分类时间多，运算效率低；

2)传统机器学习模型提取的音频样本中的重要信息存在冗余信息的干扰，使得分类模型不能很好地识别出语音样本，降低了检测准确率。

发明内容

为了解决上述问题，本公开的第一个方面提供一种语音检测方法，其将GMM模型、LSTM模型和RNN模型有效结合，能够充分发挥三个模型各自的优势，以提高语音检测模型整体的分类检测能力。

为了实现上述目的，本公开采用如下技术方案：

一种语音检测方法，包括：

构建语音检测模型；所述语音检测模型由第一GMM模型、第二GMM模型和LSTM模型并联连接之后再与RNN模型串联构成；

训练语音检测模型；其过程为：

利用语音数据、非语音数据及语音和非语音混合数据分别对应训练第一GMM模型、第二GMM模型和LSTM模型，输出相应识别得分值，进而组成一个三维向量，作为音频片段的向量表征；

将每个时刻、每个时刻前一时刻及后一时刻的音频片段向量表征组成一个时间序列，作为输入量来训练RNN模型，直至输出的所有时刻的音频片段属于语音的平均概率值偏差符合预设精度要求；

测试音频数据；其过程为：