[发明专利]音频开头爆音的检测方法、装置及存储介质有效
申请号: | 201811089089.8 | 申请日: | 2018-09-18 |
公开(公告)号: | CN109346102B | 公开(公告)日: | 2022-05-06 |
发明(设计)人: | 王征韬 | 申请(专利权)人: | 腾讯音乐娱乐科技(深圳)有限公司 |
主分类号: | G10L25/03 | 分类号: | G10L25/03;G10L25/27;G10L25/78 |
代理公司: | 深圳翼盛智成知识产权事务所(普通合伙) 44300 | 代理人: | 黄威 |
地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 开头 检测 方法 装置 存储 介质 | ||
本发明公开了一种音频开头爆音的检测方法、装置及存储介质,所述方法包括:获取训练样本,并对训练样本进行预处理,以获取多个不同尺度的音频子片段,然后将多个不同尺度的音频子片段输入第一参考模型中进行特征提取训练,以提取出多个不同尺度的特征图,再将多个不同尺度的特征图输入第二参考模型中进行特征融合训练,以得到特征融合参数,并根据多个不同尺度的特征图与特征融合参数生成检测模型,其中检测模型包括训练后的第一参考模型与第二参考模型,最后基于检测模型对待测音频进行音频开头爆音的检测,提升了音频开头爆音检测的准确率,能够有效检测音频的开头爆音。
技术领域
本发明实施例涉及音频处理领域,尤其涉及移动设备技术领域,具体涉及一种音频开头爆音的检测方法、装置及存储介质。
背景技术
开头爆音是一种常见的音频瑕疵,通常由编码器产生,也可能由录音不慎而产生,比如意外的摩擦等。开头爆音会影响用户的听歌体验。另外,开头爆音具有形式多样、位置多变的特点,而且有些音频的正常音效具有与开头爆音相似的特征,使得开头爆音的检测难度较大,检测的准确度较低。
发明内容
本发明实施例提供一种音频开头爆音的检测方法、装置及存储介质,提升了音频开头爆音检测的准确率,能够有效检测音频的开头爆音。
本发明实施例提供一种音频开头爆音的检测方法,所述方法包括:
获取训练样本;
对所述训练样本进行预处理,以获取多个不同尺度的音频子片段;
将所述多个不同尺度的音频子片段输入第一参考模型中进行特征提取训练,以提取出多个不同尺度的特征图;
将所述多个不同尺度的特征图输入第二参考模型中进行特征融合训练,以得到特征融合参数;
根据所述多个不同尺度的特征图与特征融合参数生成检测模型,其中所述检测模型包括训练后的所述第一参考模型与第二参考模型;
基于所述检测模型对待测音频进行音频开头爆音的检测。
本发明实施例还提供一种音频开头爆音的检测装置,所述装置包括:
获取模块,用于获取训练样本;
预处理模块,用于对所述训练样本进行预处理,以获取多个不同尺度的音频子片段;
提取模块,用于将所述多个不同尺度的音频子片段输入第一参考模型中进行特征提取训练,以提取出多个不同尺度的特征图;
融合模块,用于将所述多个不同尺度的特征图输入第二参考模型中进行特征融合训练,以得到特征融合参数;
生成模块,用于根据所述多个不同尺度的特征图与特征融合参数生成检测模型,其中所述检测模型包括训练后的所述第一参考模型与第二参考模型;
检测模块,用于基于所述检测模型对待测音频进行音频开头爆音的检测。
本发明实施例还提供一种存储介质,所述存储介质存储有多条指令,所述指令适于处理器进行加载,执行本发明实施例所提供的任一种所述的音频开头爆音的检测方法中的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯音乐娱乐科技(深圳)有限公司,未经腾讯音乐娱乐科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811089089.8/2.html,转载请声明来源钻瓜专利网。