[发明专利]一种高效的语音检测方法有效
申请号: | 201310743203.5 | 申请日: | 2013-12-30 |
公开(公告)号: | CN103646649A | 公开(公告)日: | 2014-03-19 |
发明(设计)人: | 陶建华;刘斌 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G10L25/78 | 分类号: | G10L25/78 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 宋焰琴 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 高效 语音 检测 方法 | ||
1.一种语音检测方法,其特征在于,该方法包括以下步骤:
步骤S10,获取原始音频,在时域上分析所述原始音频的短时能量和短时过零率,通过短时能量和短时过零率剔除原始音频中的部分非语音信号;
步骤S20,对于所述步骤S10保留下来的音频信号,在频域上分析其子带的谱包络特性和子带的熵特性,进一步剔除所述音频信号中的部分非语音信号;
步骤S30,对于保留下来的各待甄别帧的音频信号,将特征相似的连续若干帧组成一个音频段;
步骤S40,对于每个待甄别音频段,通过高斯混合模型对于该音频段中是否包含语音数据进行段级决策,最终得到语音检测结果。
2.根据权利要求1所述的方法,其特征在于,所述步骤S10进一步包括如下步骤:
步骤S11,将原始音频等间隔分成若干帧,计算每帧原始音频的短时能量和短时过零率;
步骤S12,将每帧原始音频的短时能量和短时过零率分别与预先设定的低、高两个门限进行比较,根据比较结果将每帧原始音频分为静音段、过渡段和语音段,去除所述原始音频中的静音段和过渡段信号,仅保留语音段信号。
3.根据权利要求2所述的方法,其特征在于,如果所述短时能量或短时过零率超过低门限,则标记进入过渡段;在过渡段中,若两个参数都回落到低门限以下则进入到静音段;在过渡段中,若两个参数中的任意一个超过高门限,则认为进入语音段;在语音段中,若两个参数都降到低门限以下,并且持续时间超过一预定阈值,则认为语音段结束。
4.根据权利要求1所述的方法,其特征在于,所述步骤S20中,在频域上分析各子带的谱包络的统计特性包括以下步骤:
首先,将所述音频信号分成若干子带;
然后,分别在各子带的频率范围内进行带通滤波,得到各子带的音频信号;
然后,对各子带音频信号进行希尔伯特变换,得到各子带的谱包络;
最后,对包含明显的共振峰特性和包含更多的噪声成分的子带分析其谱包络信号的统计特性。
5.根据权利要求4所述的方法,其特征在于,所述谱包络信号的统计特性包括谱包络的均值和方差,具体需要计算的特征为:包含明显共振峰特性的子带谱包络方差;包含明显共振峰特性的子带谱包络与包含更多噪声成分的子带谱包络的均值差。
6.根据权利要求1所述的方法,其特征在于,所述步骤S20中,在频域上分析子带的熵特性包括以下步骤:
首先,在长跨度模式下,利用当前帧和与其相邻的若干帧计算当前帧各频点的熵;
然后,在特定子带范围内统计熵的均值和方差以确定当前语音帧的复杂度。
7.根据权利要求1所述的方法,其特征在于,所述步骤S20中,根据各子带的谱包络统计特性和熵特性,进一步剔除所述音频信号中的部分非语音信号的步骤包括以下步骤:
步骤S21,对于每帧语音信号,首先对其进行高通滤波以去除工频信号的干扰,然后对经过高通滤波的音频信号进行加窗处理;
步骤S22,将加窗处理后的音频信号分成N个频段,在这些频段范围内分别对所述音频信号进行带通滤波,得到N个子带的音频信号;
步骤S23,对各子带的音频信号进行希尔伯特变换,得到相应的谱包络信号;
步骤S24,对所述步骤S23得到的谱包络信号进行统计特性分析,得到谱包络判决输出;
步骤S25,对当前帧音频信号和相邻若干帧的音频信号计算傅里叶幅度谱,得到不同帧各频率点的傅里叶幅值;针对不同的频率点,利用相邻若干帧计算当前帧在该频率点处的熵;在包含明显的共振峰特性的子带范围内计算各频率点熵的方差,作为长跨度判决输出;
步骤S26,融合所述步骤S24和步骤S25得到的两个判决输出进行综合判决,得到最终的频域判决结果;如果频域判决结果高于一门限值,则将该帧标注为语音帧,如果低于该门限值则将该帧标注为非语音帧。
8.根据权利要求1所述的方法,其特征在于,所述步骤S30进一步包括以下步骤:
步骤S31,对于各待甄别帧的音频信号,考虑人耳听觉感知特性,在梅尔域将所述音频信号分成若干子带;
步骤S32,对每帧音频信号计算各子带的熵,以度量各子带能量的比重,根据听觉感知特性设置各子带的权重;
步骤S33,以各子带的熵为特征参数,计算相邻语音帧的相似度,在计算过程中考虑各子带的权重,然后根据度量函数将特征相似的相邻帧归为一个音频段。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310743203.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:半导体器件及其制作方法
- 下一篇:发光装置