[发明专利]音频检测方法及装置在审
申请号: | 202011211792.9 | 申请日: | 2020-11-03 |
公开(公告)号: | CN112289340A | 公开(公告)日: | 2021-01-29 |
发明(设计)人: | 陈佳路;王晓红;刘鲁鹏;元海明;高强;夏龙;郭常圳 | 申请(专利权)人: | 北京猿力未来科技有限公司 |
主分类号: | G10L25/03 | 分类号: | G10L25/03;G10L25/27;G10L25/60 |
代理公司: | 北京智信禾专利代理有限公司 11637 | 代理人: | 刘晓楠 |
地址: | 100102 北京市朝阳区广顺南大*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 检测 方法 装置 | ||
1.一种音频检测方法,其特征在于,包括:
获取待检测音频文件;
将所述待检测音频文件输入至喷麦检测模型进行处理,获得所述待检测音频文件中的喷麦音频区间和所述喷麦音频区间的喷麦概率;
根据所述喷麦音频区间和所述喷麦概率确定所述待检测音频文件中的喷麦音频片段。
2.根据权利要求1所述的音频检测方法,其特征在于,所述喷麦检测模型通过如下方式训练:
获取样本音频文件,并对所述样本音频文件进行格式化处理,获得标准音频文件;
将所述标准音频文件切分为多个音频区间,按照所述多个音频区间的属性信息对所述多个音频区间添加喷麦标签或正常语音标签;
基于所述多个音频区间和添加标签的多个音频区间组成样本音频区间对,利用所述样本音频区间对初始喷麦检测模型进行训练,获得所述喷麦检测模型。
3.根据权利要求1所述的音频检测方法,其特征在于,所述将所述待检测音频文件输入至喷麦检测模型进行处理,获得所述待检测音频文件中的喷麦音频区间和所述喷麦音频区间的喷麦概率,包括:
基于预设帧长的处理窗以及预设时间的帧移对所述待检测音频文件进行变换,获得所述待检测音频文件对应的幅度谱;
按照所述幅度谱在所述待检测音频文件中提取低频特征输入至所述喷麦检测模型进行处理,获得所述喷麦音频区间和所述喷麦概率。
4.根据权利要求1所述的音频检测方法,其特征在于,所述根据所述喷麦音频区间和所述喷麦概率确定所述待检测音频文件中的喷麦音频片段,包括:
确定所述喷麦音频区间中的多个喷麦音频子区间,以及根据所述喷麦概率确定所述多个喷麦音频子区间中的喷麦音频子区间对应的子喷麦概率;
将所述多个喷麦音频子区间中的喷麦音频子区间对应的子喷麦概率与预设概率阈值进行比较;
根据比较结果选择大于等于所述预设概率阈值的喷麦音频子区间组成所述待检测音频文件中的喷麦音频片段。
5.根据权利要求1所述的音频检测方法,其特征在于,所述根据所述喷麦音频区间和所述喷麦概率确定所述待检测音频文件中的喷麦音频片段,包括:
确定所述喷麦音频区间中的多个喷麦音频子区间,以及根据所述喷麦概率确定所述多个喷麦音频子区间中的喷麦音频子区间对应的子喷麦概率;
将所述多个喷麦音频子区间中的喷麦音频子区间对应的子喷麦概率与预设概率阈值进行比较,根据比较结果确定多个目标喷麦音频子区间;
在所述待检测音频文件中提取所述多个目标喷麦音频子区间组成持续喷麦音频子区间;
基于所述持续喷麦音频子区间确定所述待检测音频文件中的喷麦音频片段。
6.根据权利要求5所述的音频检测方法,其特征在于,所述在所述待检测音频文件中提取所述多个目标喷麦音频子区间组成持续喷麦音频子区间,包括:
确定所述多个目标喷麦音频子区间在所述待检测音频文件中的音频位置,以及确定所述多个目标喷麦音频子区间对应的音频时长;
根据所述音频位置和所述音频时长,判断所述多个目标喷麦音频子区间在时间维度上是否连续;
若是,则将所述多个目标喷麦音频子区间进行整合,获得所述持续喷麦音频子区间。
7.根据权利要求6所述的音频检测方法,其特征在于,所述基于所述持续喷麦音频子区间确定所述待检测音频文件中的喷麦音频片段,包括:
对所述持续喷麦音频子区间进行分帧处理获得多个目标音频帧;
将所述多个目标音频帧分别进行喷麦检测,并将检测结果与喷麦检测阈值进行比较,根据比较结果组成喷麦音频序列;
在所述喷麦音频序列的持续时长大于时长阈值的情况下,根据组成所述喷麦音频序列的音频帧确定所述待检测音频文件中的喷麦音频片段。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京猿力未来科技有限公司,未经北京猿力未来科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011211792.9/1.html,转载请声明来源钻瓜专利网。