[发明专利]利用运行范围归一化的神经网络语音活动检测有效
申请号: | 201580063710.1 | 申请日: | 2015-09-26 |
公开(公告)号: | CN107004409B | 公开(公告)日: | 2021-01-29 |
发明(设计)人: | E·维克斯 | 申请(专利权)人: | 密码有限公司 |
主分类号: | G10L15/16 | 分类号: | G10L15/16;G10L25/27;G10L25/78 |
代理公司: | 北京纪凯知识产权代理有限公司 11245 | 代理人: | 赵蓉民;徐东升 |
地址: | 美国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 运行 范围 归一化 神经网络 语音 活动 检测 | ||
“运行范围归一化”方法包括计算对语音活动检测(VAD)有用的特征的数值范围的运行估计,并且通过将它们映射到期望范围来对特征进行归一化。运行范围归一化包括计算VAD特征的最小值和最大值的运行估计,以及通过将原始范围映射到期望范围来对特征值进行归一化。平滑系数被任选地选择以定向地偏置最小值和最大值的运行估计中的至少一个的变化率。归一化的VAD特征参数被用于训练机器学习算法以检测语音活动并使用经训练的机器学习算法来隔离或增强音频数据的话语分量。
相关申请的交叉引用
本申请要求2014年9月26日提交的美国临时申请序列号62/056,045和2015年9月25日提交的美国实用申请序列号14/866,824的优先权,二者标题均为“Neural NetworkVoice Activity Detection Employing Running Range Normalization”,其全部内容通过引用并入本文。
技术领域
本公开总体涉及用于处理音频信号的技术,包括用于隔离语音数据、从音频信号中去除噪声或者在输出音频信号之前以其它方式增强音频信号的技术。更具体地,本公开涉及语音活动检测(VAD),且更具体地,涉及用于归一化来源于音频信号的一个或多个语音活动检测特征或特征参数的方法。还公开了用于处理音频信号的设备和系统。
背景技术
语音活动检测器长期以来一直用于增强音频信号中的话语并且用于包括话语识别或特定扬声器的语音识别的各种其它目的。
传统上,语音活动检测器依赖于模糊规则或试探法并结合诸如能级和过零率的特征来确定音频信号是否包括话语。在一些情况下,由传统语音活动检测器利用的阈值取决于音频信号的信噪比(SNR),使得难以选择合适的阈值。此外,虽然传统语音活动检测器在音频信号具有高SNR的条件下工作良好,但是当音频信号的SNR低时,它们是不太可靠的。
通过使用诸如神经网络的机器学习技术已经改进了一些语音活动检测器,这些技术通常组合几个中等的语音活动检测(VAD)特征以提供更准确的语音活动估计。(这里使用的术语“神经网络”也可以指其它机器学习技术,诸如支持向量机、决策树、逻辑回归、统计分类器等)。虽然这些改进的语音活动检测器对于用于训练它们的音频信号来说工作良好,但是当应用于从不同环境(包括不同类型的噪声,或包括与用于训练语音活动检测器的音频信号不同的混响量)获得的音频信号时,其通常不太可靠。
已经使用称为“特征归一化”的技术来改善鲁棒性,具有该鲁棒性的语音活动检测器可以用于评估具有各种不同特性的音频信号。在均方差归一化(MVN)中,例如,特征向量的每个元素的均值和方差分别被归一化为零和一。除了改善对不同数据集的鲁棒性之外,特征归一化也隐含地提供关于当前时间帧如何与先前帧相比较的信息。例如,如果给定的隔离数据帧中的非归一化特征具有为0.1的数值,则可能提供关于该帧是否对应于话语的很少信息,特别是如果我们不知道SNR。然而,如果该特征已经基于记录的长期统计被归一化,则其提供了关于该帧如何与总体信号相比较的附加背景。
然而,诸如MVN的传统特征归一化技术通常对对应于话语的音频信号的百分比非常敏感(即人在说话的时间的百分比)。如果运行期间的在线话语数据与用于训练神经网络的数据具有明显不同的话语百分比,则VAD特征的平均值将相应地移位,产生误导结果。因此,在语音活动检测和特征归一化中寻求改进。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于密码有限公司,未经密码有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201580063710.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:吊灯(1656)
- 下一篇:床高档(青少年床高档88016H‑1)