[发明专利]音频处理模型的训练方法及装置、音频处理方法及装置在审
申请号: | 202111182079.0 | 申请日: | 2021-10-11 |
公开(公告)号: | CN113921032A | 公开(公告)日: | 2022-01-11 |
发明(设计)人: | 张旭;郑羲光;陈联武;任新蕾;张晨 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
主分类号: | G10L21/0232 | 分类号: | G10L21/0232;G10L25/30 |
代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 王皎彤;曾世骁 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 处理 模型 训练 方法 装置 | ||
1.一种音频处理模型的训练方法,其特征在于,包括:
获取纯净音频信号的幅度谱和带噪音频信号的幅度谱,其中,带噪音频信号与纯净音频信号相应;
将带噪音频信号的幅度谱分成多个频段,得到带噪音频信号的多个频段的幅度谱;
通过音频处理模型中的多个卷积神经网络预测与带噪音频信号的所述多个频段中的每个频段的幅度谱相应的降噪幅度谱,得到多个频段的降噪幅度谱;
基于所述多个频段的降噪幅度谱获得降噪音频信号的幅度谱;
通过将纯净音频信号的幅度谱与预测出的降噪音频信号的幅度谱进行比较来调整音频处理模型的参数。
2.根据权利要求1所述的训练方法,其特征在于,将带噪音频信号的幅度谱分成多个频段的步骤包括:基于预设的频段数将带噪音频信号的幅度谱分成多个频段,
其中,所述预设的频段数等于所述多个卷积神经网络的数量。
3.根据权利要求2所述的训练方法,其特征在于,所述多个卷积神经网络中的每个卷积神经网络的内核大小和步幅被分别设置为彼此不同,
其中,所述多个卷积神经网络中的每个卷积神经网络与所述多个频段中的一个频段相应。
4.根据权利要求1所述的训练方法,其特征在于,通过音频处理模型中的所述多个卷积神经网络预测带噪音频信号的所述多个频段中的每个频段的幅度谱的降噪幅度谱的步骤包括:
将带噪音频信号的所述多个频段中的每个频段的幅度谱分别输入到音频处理模型中的所述多个卷积神经网络中的相应的卷积神经网络;
在每个卷积神经网络中,基于卷积神经网络的内核大小和步幅对输入到卷积神经网络的幅度谱进行卷积操作,基于卷积操作结果确定与输入的幅度谱相应的降噪幅度谱,得到所述多个频段的降噪幅度谱。
5.根据权利要求1所述的训练方法,其特征在于,通过将纯净音频信号的幅度谱与预测出的降噪音频信号的幅度谱进行比较来调整音频处理模型的参数包括:
计算纯净音频信号的幅度谱和降噪音频信号的幅度谱之间的差异;
基于所述差异确定音频处理模型的预测损失;
基于预测损失调整音频处理模型的模型参数,直至音频处理模型的预测损失满足预设条件时,将模型参数调整后的音频处理模型作为训练得到的音频处理模型。
6.一种音频处理方法,其特征在于,包括:
获取音频信号的幅度特征;
将音频信号的幅度特征分成多个频段,得到音频信号的多个频段的幅度特征;
通过音频处理模型中的多个卷积神经网络预测与音频信号的所述多个频段中的每个频段的幅度特征相应的降噪幅度特征,得到多个频段的降噪幅度特征;
基于所述多个频段的降噪幅度特征获得降噪音频信号的幅度谱;
基于预测出的幅度谱确定与音频信号相应的降噪音频信号。
7.一种音频处理模型的训练装置,其特征在于,包括:
幅度获取单元,被配置为获取纯净音频信号的幅度谱和带噪音频信号的幅度谱,其中,带噪音频信号与纯净音频信号相应;
频段划分单元,被配置为将带噪音频信号的幅度谱分成多个频段,得到带噪音频信号的多个频段的幅度谱;以及
模型训练单元,被配置为通过音频处理模型中的多个卷积神经网络预测与带噪音频信号的所述多个频段中的每个频段的幅度谱相应的降噪幅度谱,得到多个频段的降噪幅度谱,基于所述多个频段的降噪幅度谱获得降噪音频信号的幅度谱,并且通过将纯净音频信号的幅度谱与预测出的降噪音频信号的幅度谱进行比较来调整音频处理模型的参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111182079.0/1.html,转载请声明来源钻瓜专利网。