[发明专利]利用运行范围归一化的神经网络语音活动检测有效
申请号: | 201580063710.1 | 申请日: | 2015-09-26 |
公开(公告)号: | CN107004409B | 公开(公告)日: | 2021-01-29 |
发明(设计)人: | E·维克斯 | 申请(专利权)人: | 密码有限公司 |
主分类号: | G10L15/16 | 分类号: | G10L15/16;G10L25/27;G10L25/78 |
代理公司: | 北京纪凯知识产权代理有限公司 11245 | 代理人: | 赵蓉民;徐东升 |
地址: | 美国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 运行 范围 归一化 神经网络 语音 活动 检测 | ||
1.一种从音频信号获得归一化语音活动检测特征的方法,包括以下步骤:
在包括语音活动检测器的计算系统处将音频信号划分成时间帧的序列;
针对每个时间帧计算所述音频信号的一个或多个语音活动检测特征;
针对每个所述时间帧计算所述音频信号的所述一个或多个语音活动检测特征的最小值和最大值的运行估计,其中计算所述一个或多个语音活动检测特征的最小值和最大值的运行估计包括对所述一个或多个语音活动检测特征应用不对称指数平均;
针对每个所述时间帧通过比较所述音频信号的所述一个或多个语音活动检测特征的所述最小值和所述最大值的所述运行估计来计算所述一个或多个语音活动检测特征的输入范围;
针对每个所述时间帧将所述音频信号的所述一个或多个语音活动检测特征从所述输入范围映射到一个或多个期望目标范围,以获得一个或多个归一化语音活动检测特征;
将平滑系数设置为对应于所选择的时间常数以产生平滑的最小值估计和平滑的最大值估计中的一个估计的逐渐变化和快速变化中的一种变化;
其中所述平滑系数被选择为使得出现以下情况中的至少一个:
最大值估计的连续更新快速响应于较高的语音活动检测特征值,并且响应于较低的语音活动检测特征值而更慢地衰减;以及
最小值估计的连续更新快速响应于较低的语音活动检测特征值,并且响应于较高的语音活动检测特征值而缓慢增加;以及
其中所述平滑系数由所述语音活动检测器用来检测所述音频信号中的语音活动。
2.根据权利要求1所述的方法,其中指示口语语音数据的所述音频信号的所述一个或多个特征包括全频带能量、低频带能量、在主麦克风和参考麦克风中测量的能量的比率、方差值、频谱质心比、频谱方差、频谱差异的方差、频谱平坦度和过零率中的一个或多个。
3.根据权利要求1所述的方法,其中所述一个或多个归一化语音活动检测特征被用于产生口语语音数据的可能性的估计。
4.根据权利要求1所述的方法,其进一步包括将所述一个或多个归一化语音活动检测特征应用于机器学习算法以产生指示二进制话语/非话语命名和话语活动的可能性中的至少一个的语音活动检测估计。
5.根据权利要求4所述的方法,其进一步包括使用所述语音活动检测估计来控制一个或多个自适应滤波器的自适应速率,而与信号频率无关。
6.根据权利要求1所述的方法,其中所述时间帧在所述时间帧的序列内是交叠的。
7.根据权利要求1所述的方法,其进一步包括后处理所述一个或多个归一化语音活动检测特征,包括平滑化、量化和阈值化中的至少一个。
8.根据权利要求1所述的方法,其中所述一个或多个归一化语音活动检测特征被用于通过噪声降低、自适应滤波、功率水平差计算和非话语帧的衰减中的一个或多个来增强所述音频信号。
9.根据权利要求1所述的方法,其进一步包括产生包括基本上不含非语音数据的口语语音数据的净化音频信号。
10.根据权利要求1所述的方法,其中所述一个或多个归一化语音活动检测特征被用于训练机器学习算法以检测话语。
11.根据权利要求1所述的方法,其进一步包括将特征下限估计值和特征上限估计值初始化为预定值。
12.根据权利要求1所述的方法,其中所述映射是根据以下公式执行的:归一化特征值=2×(新特征值-特征下限)/(特征上限-特征下限)-1。
13.根据权利要求1所述的方法,其中所述映射是根据以下公式执行的:归一化特征值=(新特征值-特征下限)/(特征上限-特征下限)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于密码有限公司,未经密码有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201580063710.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:吊灯(1656)
- 下一篇:床高档(青少年床高档88016H‑1)