[发明专利]结合语音活性检测和滑动窗噪声估计的信噪比计算方法有效
申请号: | 202011297932.9 | 申请日: | 2020-11-19 |
公开(公告)号: | CN112102818B | 公开(公告)日: | 2021-01-26 |
发明(设计)人: | 胡岸;何云鹏;许兵 | 申请(专利权)人: | 成都启英泰伦科技有限公司 |
主分类号: | G10L15/20 | 分类号: | G10L15/20;G10L19/02;G10L25/18;G10L25/45;G10L25/60;G10L25/78 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610041 四川省成都市高*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 结合 语音 活性 检测 滑动 噪声 估计 计算方法 | ||
1.结合语音活性检测和滑动窗噪声估计的信噪比计算方法,其特征在于,包括以下步骤:
S1.对输入的带噪语音进行逐帧处理,每帧数据对其进行短时傅里叶变换后得到频谱Y(k,l),其中k为频点频率,l为帧数;
S2.设置滑动窗,对窗内频谱的每一个频点的最小值进行持续更新;
所述持续更新的具体方式为:
以第一帧每个频点的频谱幅度平方值之和作为背景能量初始值;从第二帧开始,该帧每个频点与该帧前且位于窗内全部帧的相同频点值进行比较并选择最小值,在求得单一频点的最小值后,对该帧逐频点更新,得到该帧全频段的背景能量最小值;
S3.求出每一帧的帧能量frame_energy和帧谱熵frame_entropy;
S4.根据帧能量frame_energy和帧谱熵frame_entropy是否同时大于各自的设定门限值,判断是否处于语音活性检测状态;
S5.处于语音活性检测状态时,进行帧信噪比的求取和更新;
所述步骤S3中;第l帧的帧能量
;
帧谱熵frame_entropy,采取以下公式进行估计,其中N为傅里叶变换的点数:
;
p(k,l)为每一个频点的功率谱占整帧功率谱的比重,其中k是频点频率,l是帧数;
所述步骤S4中设定门限值与背景谱熵线性相关;
第l帧的所述背景谱熵back_entropy(l)的计算公式为:
;
其中β为背景帧谱熵平滑参数,l为帧数;
所述步骤S4具体为:
当帧能量frame_energy和帧谱熵frame_entropy同时大于各自的设定门限值,定义该状态为状态1,否则为状态2;
在状态1下,语音计数帧voice_frame的值加1,安静计数帧silence_frame的值为0;
在状态2下,安静计数帧silence_frame的值加1, 语音计数帧voice_frame的值为0;
仅在状态1连续出现次数达到设定的状态1次数阈值,判断语音活性检测状态为1,即认为处于语音活性检测状态;
所述步骤S5中帧信噪比在语音活性检测状态为1时根据如下公式求得,
第l帧的帧信噪比:
;
γ为帧信噪比平滑参数,frame_energy(l)为第l帧的帧能量,back_energy(l)为第l帧的背景能量。
2.根据权利要求1所述的信噪比计算方法,其特征在于:所述步骤S2中,背景能量最小值的更新方程为:
;
其中min(k,l)为频点k的更新前最小值,frame_energy为帧能量; back_energy(l)为第l帧的背景能量;α为背景能量平滑参数,N为傅里叶变换的点数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都启英泰伦科技有限公司,未经成都启英泰伦科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011297932.9/1.html,转载请声明来源钻瓜专利网。