[发明专利]一种应用于语音识别系统的端点检测方法无效
申请号: | 200810107116.X | 申请日: | 2008-07-17 |
公开(公告)号: | CN101308653A | 公开(公告)日: | 2008-11-19 |
发明(设计)人: | 高建清;胡国平;胡郁;刘庆峰;王仁华 | 申请(专利权)人: | 安徽科大讯飞信息科技股份有限公司 |
主分类号: | G10L15/04 | 分类号: | G10L15/04;G10L15/06;G10L11/02 |
代理公司: | 合肥天明专利事务所 | 代理人: | 奚华保 |
地址: | 230088安徽省合肥*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 应用于 语音 识别 系统 端点 检测 方法 | ||
技术领域
本发明涉及语音识别领域。
背景技术
在语音识别系统中,数字语音信号是由静音段、噪声段及语音段混合组成的,在这种信号中将语音和各种非语音信号区分开来,准确的确定出语音信号被称为端点检测或语音活动性检测(Voice Activity Detection,VAD)。端点检测的正确与否,会直接影响到语音识别系统的性能,这表现在精度和速度两方面:首先,如果移除信号中的静音和噪声段有利于系统准确提取语音的特征,提高语音识别的准确率;其次,如果待处理的信号中包含大量的非语音部分,有效的端点检测算法可以去除噪声段的计算,则计算量会大大减小,速度也会显著提高。
端点检测的研究大致可以分为两类:基于特征的方法和基于模型的方法,基于特征的方法是指寻找对语音和噪声具有区分性的特征,按一定的规则来判断语音段与噪声段,所用的特征主要有能量、基频、过零率、熵等。基于模型的方法是指针对噪声与语音分别建模,用分类的方法来进行端点的检测。基于能量、过零率等特征的方法逻辑简单,计算效率高,容易应用于实时系统,这类方法在高信噪比的情况下效果很好,但在信噪比较低的情况下性能急剧下降。基于模型分类器的方法在模型与使用实际环境匹配的情况下能取得较好的效果,但这种方法的缺点是噪声的环境有很多种,无法针对所有的环境建立对应的模型,另外,基于模型的方法一般采用较多维数的特征,这样计算效率上相对较低。
发明内容
针对上述问题,本发明提供一种高效稳健的应用于语音识别系统的端点检测方法,能高效准确的检测出语音的端点位置;同时,该方法较容易实现在线化,可以应用于语音识别实时系统。
为解决上述问题,本发明提供了一种应用于语音识别系统的端点检测方法,含有能量双门限算法和基于模型的算法,该方法采用能量双门限算法与模型分类器判决相结合的方式,即检测-验证策略进行语音信号端点检测。在检测阶段,采用能量双门限算法进行能量初判;在验证阶段,先采用段过零率判决,然后再使用模型分类器进一步的验证。本发明的步骤包括:
模型训练;
进行能量初判,根据能量特征确定门限值,寻找可能的语音的起始点;
模型分类器判决,对能量初判阶段和过零率判决阶段得到的语音起始点进一步的验证;
判断语音结束点和确认语音片段。
所述模型训练的步骤为:首先,针对端点检测的应用环境收集训练数据,对训练数据进行人工标注,分为语音与非语音部分;其次,对训练库中的语音信号进行分帧处理,每帧提取十二维梅尔频率倒谱系数(Mel-Frequency CepstralCoefficients,MFCC)特征及一维能量特征,使用高斯混合模型(GaussianMixture Model,GMM)对这十三维特征进行建模,其中语音部分数据用来训练语音模型,非语音部分数据用来训练非语音模型;最后,使用最小分类错误准则(Minimum Classification Error,MCE)对得到的GMM模型进行区分性训练。
所述能量初判即根据能量特征确定门限,按一定的规则来寻找可能的语音的起始点,能量初判的过程描述如下:
1)根据背景噪声能量计算Esil,用来代表环境噪声情况;
2)根据Esil计算两个能量门限El和Eh;
3)判断从当前位置开始的x帧内有无连续y帧的能量大于El门限值,如果有,则记录可能的语音起始点的位置,如果没有,则重新判断;
4)判断从当前位置开始的m帧内有无连续n帧的能量大于Eh门限值,如果有,则该点为可能的语音起始点并进行下一步过零率判决,如果没有,则重新判断。
所述过零率判决是对能量初判阶段得到的语音起始点进行进一步的验证。从可能的语音起始点开始取一窗的数据,计算该窗数据的段平均过零率,如果段平均过零率大于门限值,则认为该语音起始点可信,继续下一步模型分类器判决,否则,认为该语音起始点不可信,重新判断。
所述模型分类器判决是对能量初判阶段和过零率判决阶段得到的语音起始点进行进一步的验证。所述模型分类器判决的过程描述如下:
1)从可能的语音起始点开始取一窗的数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽科大讯飞信息科技股份有限公司,未经安徽科大讯飞信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810107116.X/2.html,转载请声明来源钻瓜专利网。