[发明专利]一种语音识别的端点检测方法无效
申请号: | 201110071269.5 | 申请日: | 2011-03-23 |
公开(公告)号: | CN102148030A | 公开(公告)日: | 2011-08-10 |
发明(设计)人: | 沈勇;陈磊敏;周杰 | 申请(专利权)人: | 同济大学 |
主分类号: | G10L11/02 | 分类号: | G10L11/02;G10L15/20 |
代理公司: | 上海智信专利代理有限公司 31002 | 代理人: | 吴林松 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 识别 端点 检测 方法 | ||
技术领域
本发明属于语音识别技术领域,主要针对特定环境噪声下的语音识别技术,尤其是语音识别中的语音端点检测方法。
背景技术
随着人机信息交互技术的发展,语音识别技术显示出其重要性,语音端点检测是语音识别是否正确的关键技术之一,可以在语音识别中提高识别精度及减少识别时间。然而环境中的噪声对语音端点检测造成困难,传统的常用语音端点检测方法有:1.能量法,即检测声音的功率是否上升,这种方法针对语音的清音等检测会失效;2.过零率法,这种方法针对语音的清音检测效率好,但是针对语音的浊音检测效果差;3.相关系数法,这种方法在背景噪声小的情况下效果不错,但背景噪声大时,这种方法的效果不好。
发明内容
为了弥补目前主要几种端点检测方法的不足之处,本发明提出一种语音识别的端点检测方法,在特定环境噪声下,能够准确的进行语音信号的端点检测。
为达到以上目的,本发明所采用的解决方案是:
一种语音识别的端点检测方法,其包括以下步骤:
1)采集背景噪声和含噪语音信号;
2)分析背景噪声和含噪语音信号的特性;
3)提取背景噪声线性预测模型的参数或者其LPC系数,作为背景噪声线性预测模板;
4)确定含噪语音信号的端点。
进一步,所述步骤1)中是采集特定环境下的噪声和含噪声的语音信号,再将采集的信号经A/D转换器转换为数字信号,并进行存储。
所述步骤2)是将步骤1)中采集的信号在时域上进行时域波形分析,进行分帧语音信号LPC系数分析。
所述步骤3)是选取一段时间的信号作为声音的一帧,对每帧声音建立自回归移动平均(ARMA)模型,再提取自回归移动平均模型的参数作为背景噪声线性预测模型的参数;或者选取一段时间的信号作为声音的一帧,提取每帧声音固定阶数的LPC系数。
所述步骤4)将背景噪声线性预测模型的参数或者LPC系数处理为特征参数,当特征参数的变化超出通过大量实验设定的范围时,即确定为语音端点。
所述处理为特征参数的方法为:求取每帧声音信号的背景噪声线性预测模型的参数与背景噪声线性预测模板的相对应参数之差,再求取它们的平方和,把这个平方和的值作为特征参数;或者将每帧声音的背景噪声线性预测模型LPC系数与背景噪声线性预测模板的相对应系数相减,再求其平方和,把这个平方和的值作为特征参数。
所述步骤4)中确定端点之前,还可以进一步对背景噪声线性预测模板进行修正。
所述对背景噪声线性预测模板的修正是将相邻时间段的自回归移动平均模型的参数或者其LPC系数进行加权修正,将修正后的参数或者系数作为背景噪声线性预测模板。
所述加权修正可以采用自适应滤波算法。
由于采用了上述方案,本发明具有以下特点:本发明的方法给语音端点检测提供了一种新的手段,对语音的元音、浊音和清音都能进行端点检测。且本发明的方法适用于低噪和中等噪声下的语音端点检测,有自适应学习能力。从而,本发明还可以降低语音识别系统的硬件成本,促进语音识别系统在特定环境下如轿车内部的应用。
附图说明
图1是本发明的硬件结构示意图。
图2是本发明的方法流程示意图。
具体实施方式
以下结合附图所示实施例对本发明作进一步的说明。
如图1所示的本发明的硬件图,本发明是通过麦克风采集特定环境下的语音信号,经过A/D转换器转换为数字信号,再交给DSP/CPU/MCU处理,也可以通过数据存储器进行数据的存储。
如图2所示本发明的方法的流程图,具体包含以下步骤:
①特定环境下背景噪声和含噪语音信号的采集:运用麦克风,采集特定环境下如轿车内部的噪声和含噪声的语音信号,再将采集的信号经A/D转换器转换为数字信号,并进行存储。
②背景噪声和含噪语音信号的特性分析:在特定的环境下,如某种轿车内部或者实验室环境下,从背景噪声产生机理可知,背景噪声的特征相对是比较稳定的。然而语音的产生过程和发音器官的运动密切联系,所以在一个短时间范围内(即在10~30ms这段时间内),其特征短时保持不变即相对稳定,可以将其看作是一个准稳态过程。相对于背景噪声,其稳定时间较短,即语音信号具有短时平稳性。语音信号和噪声信号不一样的特征,在时域、频域上都可以明显表现出来。本发明是将采样得到的数字信号在时域上进行时域波形分析,进行分帧语音信号LPC系数分析。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110071269.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:闪光白人造大理石
- 下一篇:基于渲染的单幅图像单点光源定位方法