[发明专利]一种音频数据处理方法、装置、设备及存储介质有效
申请号: | 202110759204.3 | 申请日: | 2021-07-05 |
公开(公告)号: | CN113377331B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 余菲;孔令城;赵伟峰;雷兆恒;周文江 | 申请(专利权)人: | 腾讯音乐娱乐科技(深圳)有限公司 |
主分类号: | G10L25/30 | 分类号: | G10L25/30;G06N3/0464;G06N3/084;G10L25/51 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 陈彦如 |
地址: | 518052 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 音频 数据处理 方法 装置 设备 存储 介质 | ||
本申请公开了一种音频数据处理方法、装置、设备及存储介质;在本申请中,为了消除音频数据因执行补零操作带来的影响,在前向传播处理过程中,每个网络层均需要根据确定的目标掩模矩阵对音频处理结果进行掩模处理,从而使得模型中的每个网络层均可通过对应的目标掩模矩阵消除补零引入的误差,提高音频数据处理效果。
技术领域
本申请涉及音频数据处理技术领域,更具体地说,涉及一种音频数据处理方法、装置、设备及存储介质。
背景技术
音乐信号为时间序列,通常为不定长信号。在AI(Artificial Intelligence,人工智能)模型训练及预测中为了批量运算,会通过补零或裁剪等方式为音频统一长度,而这一方式无可避免地改变了音频携带的信息大小和内容,为模型训练及预测引入了一定的偏差。
目前,Keras框架中的循环神经层内嵌有前向MASK(掩模)机制,可以在模型训练及预测时忽略补零操作带来的影响。但是,该方式仅能实现循环神经层的前向MASK,模型中的其他层均不支持前向MASK,如:模型中的CNN(Convolutional Neural Networks,卷积神经网络)层便不支持前向mask,使用十分有限,导致模型在批量运算过程,不能完全消除因补零操作带来的影响。因此,如何解决模型对音频数据的处理过程中,消除因补零操作带来的影响,是本领域技术人员需要解决的问题。
发明内容
本申请的目的在于提供一种音频数据处理方法、装置、设备及存储介质,以解决模型对音频数据的处理过程中,因补零操作带来的影响。
为实现上述目的,本申请第一方面提供了一种音频数据处理方法,包括:
获取待处理的原音频数据;
将原音频数据输入模型的当前网络层,并获取原掩模矩阵;
通过当前网络层对原音频数据进行处理得到第一音频;
若当前网络层需要执行掩模处理操作,则利用所述第一音频及原掩模矩阵确定目标掩模矩阵,并通过所述目标掩模矩阵对所述第一音频进行掩模处理,得到第二音频;
将所述第二音频作为原音频数据、将所述目标掩模矩阵作为原掩模矩阵发送至下一网络层,并将下一网络层作为当前网络层,继续执行所述通过当前网络层对原音频数据进行处理得到第一音频的步骤,直至当前网络层为输出层为止,输出最终音频处理结果。
为实现上述目的,本申请第二方面提供了一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述任意方法实施例所述的音频数据处理方法的步骤。
为实现上述目的,本申请第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意方法实施例所述的音频数据处理方法的步骤。
通过以上方案可知,本申请提供了一种音频数据处理方法、装置、设备及存储介质;在本方案中,为了消除音频数据因执行补零操作带来的影响,模型在前向传播处理过程中,每个网络层均需要根据确定的目标掩模矩阵对音频处理结果进行掩模处理,从而使得模型中的每个网络层均可通过对应的目标掩模矩阵消除补零引入的误差,提高音频数据处理效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本申请。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯音乐娱乐科技(深圳)有限公司,未经腾讯音乐娱乐科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110759204.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种分布式任务定时调度方法和装置
- 下一篇:一种双离心风机式臭氧消毒机