[发明专利]一种直播中环境噪声抑制的方法、装置、电子设备及存储介质在审
申请号: | 202110688922.6 | 申请日: | 2021-06-21 |
公开(公告)号: | CN113611324A | 公开(公告)日: | 2021-11-05 |
发明(设计)人: | 何潇 | 申请(专利权)人: | 上海一谈网络科技有限公司 |
主分类号: | G10L21/0224 | 分类号: | G10L21/0224;G10L21/0232;G10L25/30;H04N21/439 |
代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 胡晶 |
地址: | 200233 上海市松江区漕河*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 直播 环境噪声 抑制 方法 装置 电子设备 存储 介质 | ||
一种直播中环境噪声抑制的方法、装置、电子设备及存储介质,它包括:获取待处理的直播音频数据流,将直播音频数据流最前列固定长度数据放入输入缓冲区;将输入缓冲区的音频时域信号序列输入音频处理模型进行处理,音频处理模型至少包括频域处理过程和时域处理过程,经过傅里叶变换转换为语音频谱,语音频谱的幅值至少经过循环神经网络模型和非线性激活函数,生成幅值系数序列,所述幅值系数序列与所述音频时域信号序列的初始幅值进行相值相乘,在频谱相位保持不变的情况下从而得到新的幅值;将所述新幅值的语音频谱通过逆傅里叶变换,得到时域信号,后所述时域信号经过循环神经网络模型和非线性激活函数,生成输入信号长度相等的系数序列,并与之前的时域信号进行相乘,获得经过噪声抑制处理的新语音信号。
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种实施例涉及计算机技术领域,尤其涉及一种直播中环境噪声抑制的方法、装置、电子设备及存储介质。
背景技术
随着互联网技术的迅速发展,以视频直播和语音直播为主的网络直播如今已深入人们的日常工作和生活,各种各样的网络直播可以为人们带来多样化的信息,提供新鲜的娱乐体验。
广州市百果园网络科技有限公司在公开了一种201610754817.7音频信号处理方法,及装置,其中方法包括:获取直播过程中产生的待处理音频信号,从所述待处理音频信号中提取音频帧;根据先验的音频模型确定第一概率、第二概率以及第三概率;所述第一概率为所述音频帧属于语音的概率,所述第二概率为所述音频帧属于音乐的概率,所述第三概率为所述音频帧属于噪音的概率;若所述第一概率小于第一门限或者所述第二概率小于第二门限,并且,所述第三概率大于第三门限,则确定所述音频帧包含噪音;在确定所述待处理音频信号中包含噪音后,对属于噪音的音频帧进行降噪处理。可以适用于直播的应用场景,实现音频信号的降噪,提升音频信号质量。该方法中采用维纳滤波器进行降噪的具体实现方案是:上述对属于噪音的音频帧进行降噪处理包括:根据上述待处理音频信号U以及包含噪音的音频帧的数量V计算信噪比SNR;然后计算维纳滤波器的传递函数H,H=SNR/(SNR+1),在频域计算输出的音频信号Y,Y=H×U。更具体地,该提案实施例还提供了先验的音频模型的自动化训练方案:在上述根据先验的音频模型确定第一概率、第二概率以及第三概率之前,先通过深度神经网络、隐含马尔科夫模型或者频谱特征聚类的方式获得上述先验的音频模型。在获得先验的音频模型后,可以通过实际测试来确定训练的效果,选择较好的先验的音频模型在后续判断噪音的过程中使用。
上述的方法主要是通过滤波器来环境噪声抑制的,存在噪声抑制效果不佳的问题。现有技术中期望通过卷积神经网络或循环神经网络根据某一时刻前后波形预计此时刻纯语音波形,但该方法忽略音频频谱特征,导致网络结构复杂,所需训练样本较多,推理时间较长;而之前仅使用频域处理方式,是期望通过滤波仅保留当前音频中的人声频谱,但仍会保留人声率范围内的噪声频谱,存在噪声抑制不佳的问题。
发明内容
本发明提供了一种直播中环境噪声抑制的方法,以解决现有技术中噪声抑制不佳的问题。
一种直播中环境噪声抑制的方法,包括:
获取待处理的直播音频数据流,将所述直播音频数据流最前列固定长度数据放入输入缓冲区;
将所述输入缓冲区的音频时域信号序列输入音频处理模型进行处理,所述音频处理模型至少包括频域处理过程和时域处理过程,
所述频域处理过程至少包括:经过傅里叶变换转换为语音频谱,所述语音频谱的幅值至少经过循环神经网络模型和非线性激活函数,生成幅值系数序列,所述幅值系数序列与所述音频时域信号序列的初始幅值进行相值相乘,在频谱相位保持不变的情况下从而得到新的幅值;
时域处理过程至少包括:将所述新幅值的语音频谱通过逆傅里叶变换,得到时域信号,后所述时域信号经过循环神经网络模型和非线性激活函数,生成输入信号长度相等的系数序列,并与之前的时域信号进行相乘,获得经过噪声抑制处理的新语音信号;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海一谈网络科技有限公司,未经上海一谈网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110688922.6/2.html,转载请声明来源钻瓜专利网。