[发明专利]结合语音活性检测和滑动窗噪声估计的信噪比计算方法有效
申请号: | 202011297932.9 | 申请日: | 2020-11-19 |
公开(公告)号: | CN112102818B | 公开(公告)日: | 2021-01-26 |
发明(设计)人: | 胡岸;何云鹏;许兵 | 申请(专利权)人: | 成都启英泰伦科技有限公司 |
主分类号: | G10L15/20 | 分类号: | G10L15/20;G10L19/02;G10L25/18;G10L25/45;G10L25/60;G10L25/78 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610041 四川省成都市高*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 结合 语音 活性 检测 滑动 噪声 估计 计算方法 | ||
结合语音活性检测和滑动窗噪声估计的信噪比计算方法,包括以下步骤:S1.对输入的带噪语音进行逐帧处理,S2.设置滑动窗,对窗内频谱的每一个频点的最小值进行持续更新;S3.求出每一帧的帧能量f和帧谱熵;S4.根据帧能量和帧谱熵是否同时大于各自的设定门限值,判断是否处于语音活性检测状态;S5.处于语音活性检测状态时,进行帧信噪比的求取和更新。本发明通过判断是否符合语音活性检测状态控制帧信噪比更新时机,可以判断出环境即时状态,从而更为有效和准确的更新帧信噪比。
技术领域
本发明属于人工智能技术领域,涉及语音识别,具体涉及一种结合语音活性检测和滑动窗噪声估计的信噪比计算方法。
背景技术
语音应用场景日渐丰富,不同的应用场景往往都是伴随着噪声的。这些语音相关应用需求比如分贝检测议等工具,语音识别、阵列信号处理等等语音技术也会需要信噪比或者根据信噪比来优化体验。因此需要获取准确的信噪比估计,首先需要对背景噪声进行一个较为准确的实时估计,其次需要决定什么时候去对信噪比进行更新。
发明内容
为克服现有技术存在的缺陷,本发明公开了一种结合语音活性检测和滑动窗噪声估计的信噪比计算方法。
本发明所述结合语音活性检测和滑动窗噪声估计的信噪比计算方法,包括以下步骤:
S1.对输入的带噪语音进行逐帧处理,每帧数据对其进行短时傅里叶变换后得到频谱Y(k,l),其中k为频点频率,l为帧数;
S2.设置滑动窗,对窗内频谱的每一个频点的最小值进行持续更新;
所述持续更新的具体方式为:
以第一帧每个频点的频谱幅度平方值之和作为背景能量初始值;从第二帧开始,该帧每个频点与该帧前且位于窗内全部帧的相同频点值进行比较并选择最小值,在求得单一频点的最小值后,对该帧逐频点更新,得到该帧全频段的背景能量最小值;
S3.求出每一帧的帧能量frame_energy和帧谱熵frame_entropy;
S4.根据帧能量frame_energy和帧谱熵frame_entropy是否同时大于各自的设定门限值,判断是否处于语音活性检测状态;
S5.处于语音活性检测状态时,进行帧信噪比的求取和更新。
优选的:所述步骤S2中,背景能量最小值的更新方程为:
;
其中min(k,l)为频点k的更新前最小值,frame_energy为帧能量; back_energy(l)为第l帧的背景能量;α为背景能量平滑参数,N为傅里叶变换的点数。
优选的:第l帧的帧能量
;
帧谱熵frame_entropy,采取以下公式进行估计,其中N为傅里叶变换的点数:
;
p(k,l)为每一个频点的功率谱占整帧功率谱的比重,其中k是频点频率,l是帧数。
优选的:所述步骤S4中设定门限值与背景谱熵线性相关,
第l帧的所述背景谱熵back_entropy(l)的计算公式为:
;其中β为背景帧谱熵平滑参数,l为帧数。
优选的:所述步骤S4具体为:
当帧能量frame_energy和帧谱熵frame_entropy同时大于各自的设定门限值,定义该状态为状态1,否则为状态2;
在状态1下,语音计数帧voice_frame的值加1,安静计数帧silence_frame的值为0;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都启英泰伦科技有限公司,未经成都启英泰伦科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011297932.9/2.html,转载请声明来源钻瓜专利网。