[发明专利]一种音频流降噪方法、装置、设备及存储介质在审
申请号: | 202111575514.6 | 申请日: | 2021-12-21 |
公开(公告)号: | CN114255778A | 公开(公告)日: | 2022-03-29 |
发明(设计)人: | 盘子圣;马金龙;熊佳;焦南凯;罗箫;王伟喆;曾锐鸿;吴文亮;黎子骏;徐志坚;谢睿;陈光尧 | 申请(专利权)人: | 广州欢城文化传媒有限公司 |
主分类号: | G10L21/0208 | 分类号: | G10L21/0208;G10L19/032 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 李泽艳 |
地址: | 510000 广东省广州市天河区平云路1*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 音频 流降噪 方法 装置 设备 存储 介质 | ||
本申请公开了一种音频流降噪方法、装置、设备及存储介质,该方法包括:针对待降噪的音频流的每一帧的音频数据:将其转换成频域数据,得到原始频谱数据;将原始频域数据输入至训练后的噪音识别模型,得到残差频谱数据;将原始频谱数据减去残差频谱数据,得到该帧的目标频谱数据;根据该帧的目标频谱数据,以及该帧的上一帧的目标频谱数据,获取该帧的目标音频数据;其中,该噪音识别模型为以带噪频谱数据作为训练样本、以噪音频谱数据作为样本标签训练得到。本申请在音频流的降噪处理过程中,以帧为单位实时地对每一帧数据进行处理,并结合上一帧的处理结果得到当前帧的降噪后的目标频谱数据,能够很好地处理直播等场景的音频流降噪问题。
技术领域
本申请涉及人工智能技术领域,更具体地说,是涉及一种音频流降噪方法、装置、设备及存储介质。
背景技术
随着互联网技术及通信技术的飞速发展以及人们对线上社交需求的增长,移动端的音视频应用有着广阔的应用前景。由于环境噪音的存在,通过麦克风采集语音时会将背景噪音也一并录进去,从而导致语音不清晰,影响语音应用的使用体验。
目前也存在一些降噪方法,如采用基于u-net的深度学习模型对音频进行降噪。该模型通过卷积层和池化层,实现输入频谱的编码压缩,再通过卷积层和上采样层来还原到原频谱的大小。然而该模型需要对音频进行切片处理,无法实现音频流式处理,不适用于直播等移动端音频应用中。
因此,亟需一种音频降噪方案,以在直播等移动端应用场景中实现音频流的降噪。
发明内容
有鉴于此,本申请提供了一种音频流降噪方法、装置、设备及存储介质,以对音频流进行降噪。
为实现上述目的,本申请第一方面提供了一种音频流降噪方法,包括:
针对待降噪的音频流的每一帧的音频数据:
将所述帧的音频数据转换成频域数据,得到原始频谱数据;
将所述原始频域数据输入至训练后的噪音识别模型,得到残差频谱数据;
将所述原始频谱数据减去所述残差频谱数据,得到所述帧的目标频谱数据;
根据所述帧的目标频谱数据,以及所述帧的上一帧的目标频谱数据,获取所述帧的目标音频数据;
其中,所述噪音识别模型为以带噪频谱数据作为训练样本、以噪音频谱数据作为样本标签训练得到。
优选地,所述噪音识别模型训练的过程,包括:
获取预设数目份语音片段数据及预设数目份噪音片段数据;
根据所述语音片段数据及所述噪音片段数据,获取预设数目份带噪频谱数据及预设数目份噪音频谱数据;
以预设数目份带噪频谱数据作为所述噪音识别模型的训练样本,以预设数目份噪音频谱数据作为样本标签,对所述噪音识别模型进行训练。
优选地,根据所述语音片段数据及所述噪音片段数据,获取预设数目份带噪频谱数据及预设数目份噪音频谱数据的过程,包括:
对所述语音片段数据及所述噪音片段数据进行一一配对,得到预设数目组片段数据;
针对每一组片段数据:
分别对语音片段数据及噪音片段数据进行音量调整及低通滤波,得到第一语音片段数据及第一噪音片段数据;
将第一语音片段数据及第一噪音片段数据进行混合,得到带噪片段数据;
对所述带噪片段数据进行分帧加窗及傅立叶变换,得到带噪频谱数据;
对所述第一语音片段数据进行分帧加窗及傅立叶变换,得到语音频谱数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州欢城文化传媒有限公司,未经广州欢城文化传媒有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111575514.6/2.html,转载请声明来源钻瓜专利网。