[发明专利]语音端点检测中的背景噪声自适应调整方法有效

申请号：	200810116463.9	申请日：	2008-07-10
公开（公告）号：	CN101625860A	公开（公告）日：	2010-01-13
发明（设计）人：	李祺;马华东;郑侃彦;韩忠涛;张婷	申请（专利权）人：	新奥特（北京）视频技术有限公司
主分类号：	G10L11/00	分类号：	G10L11/00;G10L11/02;G10L15/04
代理公司：	北京天悦专利代理事务所	代理人：	田明;任晓航
地址：	100080北京市海淀区西草场***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及自动字幕生成系统中的语音检测技术，具体涉及一种语音端点检测中的背景噪声自适应调整方法。该方法根据背景噪声的实时变化，通过重新计算背景噪声的短时能量E_b，短时过零率Z_b和短时信息熵H_b的值来重新确定每一帧的短时能频值，得到新的短时能频值序列，从而能够在复杂的背景噪声环境下，对连续语音进行端点检测，提高了在复杂噪声背景下的语音端点检测效率。
搜索关键词：	语音端点检测中的背景噪声自适应调整方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种语音端点检测中的背景噪声自适应调整方法，包括如下步骤：(1)将音频采样序列分成固定长度的帧，并形成一个帧序列，针对每一帧数据提取短时能量、短时过零率和短时信息熵三个音频特征参数；(2)将音频文件最初的10ms作为环境音，将这10ms音频信号的短时能量平均值、短时过零率平均值和短时信息熵平均值作为最初的背景噪声的短时能量Eb、短时过零率Zb和短时信息熵Hb，计算得到短时能频值序列；(3)根据对短时能频值序列的分析找到一个语音起点，记为第Fb帧，判断Fb帧与上一个语音终点所在的Ft帧相距的时间间隔，当该时间间隔大于规定长度时，进行环境噪声的提取；(4)从第ft帧开始，取接下来的10帧当作背景噪声，重新计算背景噪声的短时能量Eb，短时过零率Zb和短时信息熵Hb的值，计算方法采用取10帧中的算术平均值；(5)从第Ft+1帧开始，使用更新后的背景噪声的短时能量Eb，短时过零率Zb和短时信息熵Hb，重新计算每一帧的短时能频值，得到新的短时能频值序列。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于新奥特（北京）视频技术有限公司，未经新奥特（北京）视频技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/200810116463.9/，转载请声明来源钻瓜专利网。

上一篇：嵌入式组合物镜及其制备方法
下一篇：一种汽车高速接近时的预警方法及预警装置

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L11-00 不限定于G10L 15/00至G10L 21/00单独一组中的语音或音频特征的测定或检测
G10L11-02 .检测有无语音信号
G10L11-04 .语音信号的音调测定
G10L11-06 .语音信号的浊音和清音之间的鉴别

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]语音端点检测中的背景噪声自适应调整方法有效

专利文献下载