[发明专利]语音端点检测中的背景噪声自适应调整方法有效

申请号：	200810116463.9	申请日：	2008-07-10
公开（公告）号：	CN101625860A	公开（公告）日：	2010-01-13
发明（设计）人：	李祺;马华东;郑侃彦;韩忠涛;张婷	申请（专利权）人：	新奥特（北京）视频技术有限公司
主分类号：	G10L11/00	分类号：	G10L11/00;G10L11/02;G10L15/04
代理公司：	北京天悦专利代理事务所	代理人：	田明;任晓航
地址：	100080北京市海淀区西草场***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音端点检测中的背景噪声自适应调整方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种语音端点检测中的背景噪声自适应调整方法，包括如下步骤：

(1)将音频采样序列分成固定长度的帧，并形成一个帧序列，针对每一帧数据提取短时能量、短时过零率和短时信息熵三个音频特征参数；

(2)将音频文件最初的10ms作为环境音，将这10ms音频信号的短时能量平均值、短时过零率平均值和短时信息熵平均值作为最初的背景噪声的短时能量 E_b、短时过零率Z_b和短时信息熵H_b，计算得到短时能频值序列，所述的短时能频值定义为：

EZE-feature_i＝(E_i-E_b)·(Z_i-Z_b)·(H_i-H_b)

其中，EZE-feature_i表示第i帧的短时能频值；E_i、Z_i和H_i分别表示第i帧的短时能量、短时过零率和短时信息熵；E_b、Z_b和H_b分别表示当前背景噪声的短时能量、短时过零率和短时信息熵；

(3)根据对短时能频值序列的分析找到一个语音起点，记为第F_h帧，判断 F_h帧与上一个语音终点所在的F_t帧相距的时间间隔，当该时间间隔大于规定长度时，进行环境噪声的提取；

(4)从第F_t帧开始，取接下来的10帧当作背景噪声，重新计算背景噪声的短时能量E_b，短时过零率Z_b和短时信息熵H_b的值，计算方法采用分别对10帧中的短时能量E_b，短时过零率Z_b和短时信息熵H_b取算术平均值；

(5)从第F_t+1帧开始，使用更新后的背景噪声的短时能量E_b，短时过零率Z_b和短时信息熵H_b，重新计算每一帧的短时能频值，得到新的短时能频值序列。

2.如权利要求1所述的语音端点检测中的背景噪声自适应调整方法，其特征在于：在步骤(3)中，所述的规定长度为300ms。

3.如权利要求1所述的语音端点检测中的背景噪声自适应调整方法，其特征在于：在步骤(3)中，寻找语音起点的步骤如下：

(a)从第t帧开始寻找，检测第t帧之后每一帧的短时能频值，直至找到一帧j，使得

X_t≤X_t+1≤X_t+2≤......≤X_j且X_j+1≥X_j+2

即寻找从第t帧开始的短时能频值序列的上升区间，记为A_t；

(b)计算所找到的上升区间A_t的短时能频值序列波形的平均斜率R_t：

Rt=Xj-Xtj-t]]>

其中，X_t为第t帧的短时能频值，X_j为第j帧的短时能频值；

(c)设定一个门限值R_m来确定语音起始点，如果R_t≥R_m，且第t帧之前的区间没有被认为是语音区间，则将第t帧记为语音的起点，然后令t＝j+1，去寻找与之相匹配的语音终点；如果R_t＜R_m，则令t＝j+1，返回步骤(a)。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于新奥特（北京）视频技术有限公司，未经新奥特（北京）视频技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/200810116463.9/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载