首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]一种语音检测方法及装置有效

申请号：	201910594785.2	申请日：	2019-07-03
公开（公告）号：	CN110349597B	公开（公告）日：	2021-06-25
发明（设计）人：	冷严;林蝉;赵玮玮;齐广慧;李登旺	申请（专利权）人：	山东师范大学
主分类号：	G10L25/60	分类号：	G10L25/60;G10L25/24;G10L15/08;G10L15/06
代理公司：	济南圣达知识产权代理有限公司 37221	代理人：	张庆骞
地址：	250014 山***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语音检测方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种语音检测方法，其特征在于，包括：

构建语音检测模型；所述语音检测模型由第一GMM模型、第二GMM模型和LSTM模型并联连接之后再与RNN模型串联构成；

训练语音检测模型；其过程为：

利用语音数据、非语音数据及语音和非语音混合数据分别对应训练第一GMM模型、第二GMM模型和LSTM模型，输出相应识别得分值，进而组成一个三维向量，作为音频片段的向量表征；

将每个时刻、每个时刻前一时刻及后一时刻的音频片段向量表征组成一个时间序列，作为输入量来训练RNN模型，直至输出的所有时刻的音频片段属于语音的平均概率值偏差符合预设精度要求；

测试音频数据；其过程为：

分割测试音频数据为若干个音频片段，再将音频片段逐个输入至训练完成的语音检测模型，得到相应时刻的音频片段属于语音的概率值。

2.如权利要求1所述的语音检测方法，其特征在于，在求得测试音频片段属于语音的概率值后，若概率值大于或等于设定阈值，则判断相应时刻的音频片段属于语音；否则，判断相应时刻的音频片段不属于语音。

3.如权利要求1所述的语音检测方法，其特征在于，训练第一GMM模型的过程为：

将仅含有语音数据的音频片段分帧处理，提取每帧音频的预设维的梅尔频率倒谱系数作为音频特征，形成一个训练样本并存储至第一训练样本集合内；

将第一训练样本集合内的训练样本输入至第一GMM模型中，输出各帧音频的语音识别得分值，将音频片段内所有帧的语音识别得分值取平均，得到相应音频片段的语音识别得分值；

通过期望最大化算法由第一训练样本集合内的训练样本训练得到第一GMM模型的所有参数；

或

训练第二GMM模型的过程为：

将仅含有非语音数据的音频片段分帧处理，提取每帧音频的预设维的梅尔频率倒谱系数作为音频特征，形成一个训练样本并存储至第二训练样本集合内；

将第二训练样本集合内的训练样本输入至第二GMM模型中，输出各帧音频的非语音识别得分值，将音频片段内所有帧的非语音识别得分值取平均，得到相应音频片段的非语音识别得分值；

通过期望最大化算法由第二训练样本集合内的训练样本训练得到第二GMM模型的所有参数。

4.如权利要求1所述的语音检测方法，其特征在于，训练LSTM模型的过程为：

将含有语音数据和非语音数据的音频片段分帧处理，提取每帧音频的预设维的梅尔频率倒谱系数作为音频特征，将这些音频特征按照时间顺序排列构成一个时间序列；

将上述时间序列输入至LSTM模型中，输出得到相应音频片段的识别得分值；

采用Adam优化算法训练LSTM模型，直至LSTM模型的参数达到最优。

5.如权利要求1所述的语音检测方法，其特征在于，训练RNN模型的过程为：

将训练好的第一GMM模型、第二GMM模型和LSTM模型分别输出的识别得分值组成一个三维向量，作为音频片段的向量表征；

将当前时刻、前一时刻及后一时刻的音频片段向量表征组成一个时间序列，作为输入量来训练RNN模型，输出得到当前时刻音频片段属于语音的概率值；

采用Adam优化算法训练RNN模型，直至输出的所有时刻的音频片段属于语音的平均概率值偏差符合预设精度要求。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于山东师范大学，未经山东师范大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910594785.2/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于深度学习的钢琴考级评定方法及装置
下一篇：一种低信噪比环境下的端点检测方法

同类专利

专利分类

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top