[发明专利]基于分数阶傅里叶变换的语音非语音检测方法有效

申请号：	201310557124.5	申请日：	2013-11-11
公开（公告）号：	CN103578466A	公开（公告）日：	2014-02-12
发明（设计）人：	张卫强;刘加	申请（专利权）人：	清华大学
主分类号：	G10L15/04	分类号：	G10L15/04
代理公司：	北京众合诚成知识产权代理有限公司 11246	代理人：	陈波
地址：	100084 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于分数傅里叶变换语音检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于语音信号处理领域，尤其涉及一种基于分数阶傅里叶变换的语音非语音检测方法。

背景技术

在语音信号处理中，音频数据的预处理是非常重要的一个环节。其功能是去除语音信号之外的非语音信号，具体包括静音、噪声、音乐等，从而得到较为“干净”的语音数据，供后续模块进行处理。

目前，对于静音、噪声、音乐等处理有各自的算法。例如对于静音处理，有较成熟的VAD（语音活动检测）算法，如G.723.1、子带频谱熵等算法；对于噪声处理，有较成熟的降噪或去噪算法，如小波降噪算法、维纳滤波算法；对于音乐处理，有语音音乐分类算法，如MLER（改进的低能量率）算法、GMM（高斯混合模型）算法。这些算法可以分别应对不同的非语音类型，在构建实际应用系统时，一般需要将这些模块进行串联，从而达到处理各种非语音的目的。但是这样带来的问题是系统实现复杂，处理框架不统一。

发明内容

针对背景技术中提到的目前存在的语音信号处理方法无法达到处理各种非语音的问题，本发明提出了一种基于分数阶傅里叶变换的语音非语音检测方法。

一种基于分数阶傅里叶变换的语音非语音检测方法，其特征在于，所述方法具体包括以下步骤：

步骤1：对音频信号按帧长25ms，帧移10ms进行分帧处理；

步骤2：对分帧处理后的每帧信号进行零均值化和加窗处理；

步骤3：在步骤2的基础上，对每帧信号进行不同阶次的分数阶傅里叶变换，得到不同阶次的分数阶频谱；

步骤4：对每一阶次的分数阶频谱，计算其分数阶频谱熵；

步骤5：对不同阶次的分数阶频谱熵取最大值，并将最大值与设定的阈值进行比较，如果大于阈值，则判决为非语音；否则，判决为语音。

所述加窗处理指的是对分帧处理后的每帧信号加汉明窗或汉宁窗。

所述不同阶次的设定为：阶次从0到1，每隔0.05进行一次。

所述对每帧信号进行不同阶次的分数阶傅里叶变换的公式为：

Xp(u)=∫-∞+∞Kp(u,t)x(t)dt]]>