[发明专利]音频处理方法及装置、电子设备和存储介质有效
申请号: | 201910086763.5 | 申请日: | 2019-01-29 |
公开(公告)号: | CN109887515B | 公开(公告)日: | 2021-07-09 |
发明(设计)人: | 周航;刘子纬;徐旭东;罗平;王晓刚 | 申请(专利权)人: | 北京市商汤科技开发有限公司 |
主分类号: | G10L19/00 | 分类号: | G10L19/00;G10L19/02;G10L25/18;G10L25/24;G10L25/30 |
代理公司: | 北京林达刘知识产权代理事务所(普通合伙) 11277 | 代理人: | 刘新宇 |
地址: | 100084 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 处理 方法 装置 电子设备 存储 介质 | ||
本公开涉及一种音频处理方法及装置、电子设备和存储介质,所述方法包括:对待处理的受损音频进行频谱转换,得到所述受损音频的第一频谱图像;对所述第一频谱图像进行频谱补全,得到补全的第二频谱图像;根据所述第二频谱图像对所述受损音频进行补全,得到补全后的第一音频,使得补全后的第一音频可以呈现良好的听觉效果。
技术领域
本公开涉及信号处理技术领域,尤其涉及一种音频处理方法及装置、电子设备和存储介质。
背景技术
音频补全是指当音频中的一段因为噪声干扰或者意外导致缺失时,重新生成缺失部分的音频并将其自然补全。这一技术在音频信息修复和降噪方面有较多应用。相关技术主要依赖传统的音频处理方法,使用稀疏的音频表示方法,寻找与缺失片段周围已知片段相似的部分进行填充。
发明内容
本公开提出了一种音频处理技术方案。
根据本公开的一方面,提供了一种音频处理方法,包括:对待处理的受损音频进行频谱转换,得到所述受损音频的第一频谱图像;对所述第一频谱图像进行频谱补全,得到补全的第二频谱图像;根据所述第二频谱图像对所述受损音频进行补全,得到补全后的第一音频。
在一种可能的实现方式中,对所述第一频谱图像进行频谱补全,得到补全的第二频谱图像,包括:对所述第一频谱图像进行特征提取,得到第一频谱特征;对所述第一频谱特征进行频谱重构,得到所述第二频谱图像。
在一种可能的实现方式中,对所述第一频谱图像进行频谱补全,得到补全的第二频谱图像,包括:对所述第一频谱图像进行特征提取,得到第二频谱特征;对所述受损音频的相关信息进行特征提取,得到监督特征;对齐所述第二频谱特征和所述监督特征;根据对齐后的监督特征对所述第一频谱特征进行频谱重构,得到所述第二频谱图像,其中,所述相关信息包括与所述受损音频对应的视频信息和光流信息中的至少一种。
在一种可能的实现方式中,所述受损音频包括受损音频片段;所述根据所述第二频谱图像对所述受损音频进行补全,得到补全后的第一音频,包括:对第二频谱图像中与受损音频片段对应的频谱图像进行谱频转换,得到补全音频片段;利用补全音频片段对受损音频进行补全,得到补全后的第一音频。
在一种可能的实现方式中,所述受损音频包括受损音频片段和未受损音频片段;所述根据所述第二频谱图像对所述受损音频进行补全,得到补全后的第一音频,包括:根据第二频谱图像中与受损音频片段对应的频谱图像和未受损音频片段,预测所述补全音频片段;利用补全音频片段对受损音频进行补全,得到补全后的第一音频。
在一种可能的实现方式中,所述根据所述第二频谱图像对所述受损音频进行补全,得到补全后的第一音频的操作,通过WaveNet解码网络实现。
在一种可能的实现方式中,所述第一频谱图像和第二频谱图像包括梅尔频谱图像或梅尔倒谱图像。
根据本公开的一方面,提供了一种音频处理装置,包括:频谱转换模块,用于对待处理的受损音频进行频谱转换,得到所述受损音频的第一频谱图像;频谱补全模块,用于对所述第一频谱图像进行频谱补全,得到补全的第二频谱图像;音频补全模块,用于根据所述第二频谱图像对所述受损音频进行补全,得到补全后的第一音频。
在一种可能的实现方式中,所述频谱补全模块包括:第一特征提取子模块,用于对所述第一频谱图像进行特征提取,得到第一频谱特征;第一频谱重构子模块,用于对所述第一频谱特征进行频谱重构,得到所述第二频谱图像。
在一种可能的实现方式中,所述频谱补全模块包括:第二特征提取子模块,用于对所述第一频谱图像进行特征提取,得到第二频谱特征;第三特征提取子模块,用于对所述受损音频的相关信息进行特征提取,得到监督特征;对齐子模块,用于对齐所述第二频谱特征和所述监督特征;第二频谱重构子模块,用于根据对齐后的监督特征对所述第一频谱特征进行频谱重构,得到所述第二频谱图像,其中,所述相关信息包括与所述受损音频对应的视频信息和光流信息中的至少一种。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京市商汤科技开发有限公司,未经北京市商汤科技开发有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910086763.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:音频传输方法及装置
- 下一篇:对音频场景进行解码的方法、音频解码器以及介质