[发明专利]音频处理方法及装置、终端及存储介质有效
申请号: | 202110303110.5 | 申请日: | 2021-03-22 |
公开(公告)号: | CN113113040B | 公开(公告)日: | 2023-05-09 |
发明(设计)人: | 王昭 | 申请(专利权)人: | 北京小米移动软件有限公司 |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L25/03;G10L25/30;G10L25/81 |
代理公司: | 北京法胜知识产权代理有限公司 11922 | 代理人: | 石茵汀 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 处理 方法 装置 终端 存储 介质 | ||
本公开是关于一种音频处理方法及装置、终端及存储介质。该方法包括:获取混合音频数据,所述混合音频数据包括多种成分的音频数据;对所述混合音频数据进行处理,以获取所述混合音频数据的时频谱特征数据;将所述时频谱特征数据输入训练好的神经网络模型中进行分离,确定所述混合音频数据中与预设成分标签对应的音频数据;其中,所述神经网络模型包括编码器‑解码器结构。该方法基于深度学习的方案,能够有效分离波形音乐中的独立成分,适用于绝大多数音频,并且不限制乐曲风格,具有较强的可扩展性和普适性。
技术领域
本公开涉及电子技术领域,尤其涉及一种音频处理方法及装置、终端及存储介质。
背景技术
音频分离技术是一种从一个混合音频信号中分别提取指定种类信号的音频处理方法。传统音乐分离软件所谓的“消音”一般采用带阻滤波的方式。此外,相关技术中也有采用谱减法的方式来分离人声和伴奏的方法。然而,基于带阻滤波的消音技术,由于部分乐器的频率与人声的频率有所重合,且人声或者和声所在的频率也并非固定,此方法会导致处于同频段的乐器声同时消失。而谱减法则会引入音乐噪声,因此会极大地影响用户的听感。
发明内容
为在一定程度上克服相关技术中存在的问题,本公开提供一种音频处理方法及装置、终端及存储介质。
根据本公开实施例的第一方面,提供一种音频处理方法,包括:
获取混合音频数据,所述混合音频数据包括多种成分的音频数据;
对所述混合音频数据进行处理,以获取所述混合音频数据的时频谱特征数据;
将所述时频谱特征数据输入训练好的神经网络模型中进行分离,确定所述混合音频数据中与预设成分标签对应的音频数据;
其中,所述神经网络模型包括编码器-解码器结构。
在一些实施例中,所述对所述混合音频数据进行处理,确定所述混合音频数据的时频谱特征数据,包括:
对所述混合音频数据进行截断处理,以获得预设长度的目标音频数据;
对所述目标音频数据进行预处理和归一化操作,以得到处理后的所述混合时频谱特征数据。
在一些实施例中,所述将所述时频谱特征数据输入训练好的神经网络模型中进行分离,以获取所述混合音频数据中与预设成分标签对应的音频数据,包括:
基于预先训练好的与所述预设成分标签关联的提取模型,确定所述时频谱特征数据中与每一所述预设成分标签对应的特征提取数据;
基于所述特征提取数据,确定所述混合音频数据中与预设成分标签对应的音频数据。
在一些实施例中,与所述预设成分标签关联的提取模型通过以下步骤训练得到:
确定混合音频样本训练集,其中,所述混合音频样本训练集包括所述预设成分标签以及与所述预设成分标签对应的混合音频样本训练数据;
将每一所述预设成分标签以及与所述预设成分标签对应的混合音频样本训练数据的时频谱特征分别输入所述神经网络模型中进行训练,以得到与每一所述预设成分标签关联的所述提取模型。
在一些实施例中,与所述预设成分标签关联的提取模型通过以下步骤训练得到:
确定混合音频样本训练集,其中,所述混合音频样本训练集包括所述预设成分标签以及与所述预设成分标签对应的混合音频样本训练数据;
在保持所述混合音频训练数据基频不变的情况下,改变所述混合音频训练数据的声道运动速率,以得到处理后的目标混合音频样本训练数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京小米移动软件有限公司,未经北京小米移动软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110303110.5/2.html,转载请声明来源钻瓜专利网。