[发明专利]音频信号的处理方法、装置、电子设备和存储介质有效
申请号: | 202110336613.2 | 申请日: | 2021-03-29 |
公开(公告)号: | CN113257283B | 公开(公告)日: | 2023-09-26 |
发明(设计)人: | 周新权 | 申请(专利权)人: | 北京字节跳动网络技术有限公司 |
主分类号: | G10L25/78 | 分类号: | G10L25/78;G10L25/30;G10L25/03;G10L21/02 |
代理公司: | 北京植德律师事务所 11780 | 代理人: | 唐华东 |
地址: | 100041 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 信号 处理 方法 装置 电子设备 存储 介质 | ||
本公开提供一种音频信号的处理方法、装置、电子设备和存储介质。该方法的一具体实施方式包括:获取目标音频信号的音频特征,其中,音频特征包括至少一个音频特征单元;将每个音频特征单元输入预先训练的机器学习模型,得到相应的音频类别标签,其中,音频类别标签包括近场语音标签、远场语音标签、音乐标签和噪声标签中的至少一项。该实施方式不仅能够识别音频信号是否为语音,还可以识别音频信号具体为近场语音、远场语音还是音乐,从而为后续的音频处理提供可靠的类别信息,大大提高了音频处理的效率和效果。
技术领域
本公开的实施例涉及音频信号处理技术领域,具体涉及音频信号的处理方法、装置、电子设备和存储介质。
背景技术
语音活动检测(Voice activity detection,VAD)技术是一种在一段音频信号中检测是否存在语音信号的技术,其在语音编码、语音增强和语音识别领域都有着广泛的应用。
传统的语音活动检测本质上是一个二分类的分类器来区分语音和除了语音的一切噪声。随着应用场景的增多,传统的VAD技术越发不能满足应用需求。例如,传统的VAD技术将除了语音以外的所有声音都分为一类,这对于需要识别音乐的场景就很不友好。又例如,对于语音,很多情况下需要确定语音是近场语音还是远场语音,以此来做一些定制化的处理,传统的VAD技术就无法提供近远场语音的信息。
因此,有必要提出一种新的对音频信号进行处理的技术方案。
发明内容
本公开的实施例提出了音频信号的处理方法、装置、电子设备和存储介质。
第一方面,本公开提供了一种音频信号的处理方法,包括:
获取目标音频信号的音频特征,其中,上述音频特征包括至少一个音频特征单元;
将每个上述音频特征单元输入预先训练的机器学习模型,得到相应的音频类别标签,其中,上述音频类别标签包括近场语音标签、远场语音标签、音乐标签和噪声标签中的至少一项。
在一些可选的实施方式中,在上述将每个上述音频特征单元输入预先训练的机器学习模型,得到相应的音频类别标签之后,上述方法还包括:
根据上述音频类别标签,对上述目标音频信号进行降噪或者增强处理。
在一些可选的实施方式中,上述机器学习模型包括特征提取网络、音频分类网络和语音活动检测网络;
上述特征提取网络用于提取上述音频特征单元对应的机器学习特征;
上述语音活动检测网络用于根据上述机器学习特征,输出相应的语音活动标签,其中,上述语音活动标签包括语音标签和非语音标签中的至少一项;
上述音频分类网络用于根据上述机器学习特征,输出相应的上述音频类别标签。
在一些可选的实施方式中,在上述机器学习模型的训练阶段,上述语音活动标签用于对上述音频类别标签进行验证,其中,上述近场语音标签和上述远场语音标签对应于上述语音标签,上述音乐标签和上述噪声标签对应于上述非语音标签。
在一些可选的实施方式中,上述机器学习模型通过以下方式获取:
获取训练样本集,其中,上述训练样本集包括近场语音样本、远场语音样本、音乐样本和噪声样本,以及相应的样本类别标签;
通过上述训练样本集进行机器学习训练,以得到上述机器学习模型。
在一些可选的实施方式中,上述近场语音样本通过近场录音获得;或者,上述近场语音样本通过预设语音数据获得。
在一些可选的实施方式中,上述近场语音样本通过以下方式获得:
对上述近场录音或者上述预设语音数据进行降噪处理,得到相应的降噪近场音频;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字节跳动网络技术有限公司,未经北京字节跳动网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110336613.2/2.html,转载请声明来源钻瓜专利网。