[发明专利]音频信号的处理方法、装置、电子设备和存储介质有效

申请号：	202110336613.2	申请日：	2021-03-29
公开（公告）号：	CN113257283B	公开（公告）日：	2023-09-26
发明（设计）人：	周新权	申请（专利权）人：	北京字节跳动网络技术有限公司
主分类号：	G10L25/78	分类号：	G10L25/78;G10L25/30;G10L25/03;G10L21/02
代理公司：	北京植德律师事务所 11780	代理人：	唐华东
地址：	100041 北京市石景山区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	音频信号处理方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开提供一种音频信号的处理方法、装置、电子设备和存储介质。该方法的一具体实施方式包括：获取目标音频信号的音频特征，其中，音频特征包括至少一个音频特征单元；将每个音频特征单元输入预先训练的机器学习模型，得到相应的音频类别标签，其中，音频类别标签包括近场语音标签、远场语音标签、音乐标签和噪声标签中的至少一项。该实施方式不仅能够识别音频信号是否为语音，还可以识别音频信号具体为近场语音、远场语音还是音乐，从而为后续的音频处理提供可靠的类别信息，大大提高了音频处理的效率和效果。

技术领域

本公开的实施例涉及音频信号处理技术领域，具体涉及音频信号的处理方法、装置、电子设备和存储介质。

背景技术

语音活动检测(Voice activity detection，VAD)技术是一种在一段音频信号中检测是否存在语音信号的技术，其在语音编码、语音增强和语音识别领域都有着广泛的应用。

传统的语音活动检测本质上是一个二分类的分类器来区分语音和除了语音的一切噪声。随着应用场景的增多，传统的VAD技术越发不能满足应用需求。例如，传统的VAD技术将除了语音以外的所有声音都分为一类，这对于需要识别音乐的场景就很不友好。又例如，对于语音，很多情况下需要确定语音是近场语音还是远场语音，以此来做一些定制化的处理，传统的VAD技术就无法提供近远场语音的信息。

因此，有必要提出一种新的对音频信号进行处理的技术方案。

发明内容

本公开的实施例提出了音频信号的处理方法、装置、电子设备和存储介质。

第一方面，本公开提供了一种音频信号的处理方法，包括：

获取目标音频信号的音频特征，其中，上述音频特征包括至少一个音频特征单元；

将每个上述音频特征单元输入预先训练的机器学习模型，得到相应的音频类别标签，其中，上述音频类别标签包括近场语音标签、远场语音标签、音乐标签和噪声标签中的至少一项。

在一些可选的实施方式中，在上述将每个上述音频特征单元输入预先训练的机器学习模型，得到相应的音频类别标签之后，上述方法还包括：

根据上述音频类别标签，对上述目标音频信号进行降噪或者增强处理。

在一些可选的实施方式中，上述机器学习模型包括特征提取网络、音频分类网络和语音活动检测网络；

上述特征提取网络用于提取上述音频特征单元对应的机器学习特征；

上述语音活动检测网络用于根据上述机器学习特征，输出相应的语音活动标签，其中，上述语音活动标签包括语音标签和非语音标签中的至少一项；

上述音频分类网络用于根据上述机器学习特征，输出相应的上述音频类别标签。