[发明专利]音频处理方法及装置、电子设备和存储介质有效
申请号: | 201910086763.5 | 申请日: | 2019-01-29 |
公开(公告)号: | CN109887515B | 公开(公告)日: | 2021-07-09 |
发明(设计)人: | 周航;刘子纬;徐旭东;罗平;王晓刚 | 申请(专利权)人: | 北京市商汤科技开发有限公司 |
主分类号: | G10L19/00 | 分类号: | G10L19/00;G10L19/02;G10L25/18;G10L25/24;G10L25/30 |
代理公司: | 北京林达刘知识产权代理事务所(普通合伙) 11277 | 代理人: | 刘新宇 |
地址: | 100084 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 处理 方法 装置 电子设备 存储 介质 | ||
1.一种音频处理方法,其特征在于,包括:
对待处理的受损音频进行频谱转换,得到所述受损音频的第一频谱图像;
对所述第一频谱图像进行频谱补全,得到补全的第二频谱图像;
根据所述第二频谱图像对所述受损音频进行补全,得到补全后的第一音频;
对所述第一频谱图像进行频谱补全,得到补全的第二频谱图像,包括:
对所述第一频谱图像进行特征提取,得到第一频谱特征;
对所述第一频谱特征进行频谱重构,得到所述第二频谱图像;
其中,所述频谱重构包括:利用与受损音频天然对齐的受损音频的相关信息作为监督信息,根据第一频谱图像中除缺失区域之外的其他区域的像素点预测缺失区域中的各个像素点,所述相关信息包括与所述受损音频对应的视频信息和光流信息中的至少一种。
2.根据权利要求1所述的方法,其特征在于,对所述第一频谱图像进行频谱补全,得到补全的第二频谱图像,包括:
对所述第一频谱图像进行特征提取,得到第二频谱特征;
对所述受损音频的相关信息进行特征提取,得到监督特征;
对齐所述第二频谱特征和所述监督特征;
根据对齐后的监督特征对所述第一频谱特征进行频谱重构,得到所述第二频谱图像。
3.根据权利要求1-2中任意一项所述的方法,其特征在于,所述受损音频包括受损音频片段;
所述根据所述第二频谱图像对所述受损音频进行补全,得到补全后的第一音频,包括:
对第二频谱图像中与受损音频片段对应的频谱图像进行谱频转换,得到补全音频片段;
利用补全音频片段对受损音频进行补全,得到补全后的第一音频。
4.根据权利要求1-2中任意一项所述的方法,其特征在于,所述受损音频包括受损音频片段和未受损音频片段;
所述根据所述第二频谱图像对所述受损音频进行补全,得到补全后的第一音频,包括:
根据第二频谱图像中与受损音频片段对应的频谱图像和未受损音频片段,预测补全音频片段;
利用补全音频片段对受损音频进行补全,得到补全后的第一音频。
5.根据权利要求1-2中任意一项所述的方法,其特征在于:
所述根据所述第二频谱图像对所述受损音频进行补全,得到补全后的第一音频的操作,通过WaveNet解码网络实现。
6.根据权利要求1-2中任意一项所述的方法,其特征在于:
所述第一频谱图像和第二频谱图像包括梅尔频谱图像或梅尔倒谱图像。
7.一种音频处理装置,其特征在于,包括:
频谱转换模块,用于对待处理的受损音频进行频谱转换,得到所述受损音频的第一频谱图像;
频谱补全模块,用于对所述第一频谱图像进行频谱补全,得到补全的第二频谱图像;
音频补全模块,用于根据所述第二频谱图像对所述受损音频进行补全,得到补全后的第一音频;
所述频谱补全模块包括:
第一特征提取子模块,用于对所述第一频谱图像进行特征提取,得到第一频谱特征;
第一频谱重构子模块,用于对所述第一频谱特征进行频谱重构,得到所述第二频谱图像;
其中,所述第一频谱重构子模块,具体用于利用与受损音频天然对齐的受损音频的相关信息作为监督信息,根据第一频谱图像中除缺失区域之外的其他区域的像素点预测缺失区域中的各个像素点,所述相关信息包括与所述受损音频对应的视频信息和光流信息中的至少一种。
8.根据权利要求7所述的装置,其特征在于,所述频谱补全模块包括:
第二特征提取子模块,用于对所述第一频谱图像进行特征提取,得到第二频谱特征;
第三特征提取子模块,用于对所述受损音频的相关信息进行特征提取,得到监督特征;
对齐子模块,用于对齐所述第二频谱特征和所述监督特征;
第二频谱重构子模块,用于根据对齐后的监督特征对所述第一频谱特征进行频谱重构,得到所述第二频谱图像。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京市商汤科技开发有限公司,未经北京市商汤科技开发有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910086763.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:音频传输方法及装置
- 下一篇:对音频场景进行解码的方法、音频解码器以及介质