[发明专利]一种基于长短时特征提取的音频场景识别方法及装置有效
申请号: | 201810039421.3 | 申请日: | 2018-01-16 |
公开(公告)号: | CN108305616B | 公开(公告)日: | 2021-03-16 |
发明(设计)人: | 袁庆升;白海钏;张鹏远;包秀国;刘洋;张翠;汪立东;杜翠兰;时磊;张鸿;云晓春;颜永红;崔佳;林绅文;王钲淇 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心;中国科学院声学研究所 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/08;G10L15/14;G10L25/24 |
代理公司: | 北京方安思达知识产权代理有限公司 11472 | 代理人: | 陈琳琳;杨青 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 长短 特征 提取 音频 场景 识别 方法 装置 | ||
1.一种基于长短时特征提取的音频场景识别方法,其特征在于,包括:
对输入待识别音频信号进行预处理;
对经过预处理后的所述待识别音频信号,进行短时音频特征提取,再进行长时音频特征提取;
将所述待识别音频信号的所述长、短时音频特征联合,输入分类模型及其融合模型,进行分类和识别,输出音频场景的识别标签;
所述短时音频特征提取,为短时窗内或者帧级别的短时音频特征提取;所述短时音频特征包括:时域特征、频域特征和倒谱特征;
所述长时音频特征提取,包括:整条音频文件的音频场景高斯超向量和音频场景总变化因子特征提取;
所述音频场景高斯超向量特征提取,包括:
使用大量音频场景背景数据训练一个与目标场景无关的背景模型;
然后针对每个音频场景进行最大后验估计,更新所述背景模型参数,得到不同目标场景的GMM模型;
对所述目标场景均值向量进行更新得到
采用计算统计量的方法将所述目标场景的均值向量拼接成一个高维的超向量Sn,所述Sn为音频场景高斯超向量;
所述音频场景总变化因子特征提取,包括:
构建GMM-UBM模型,采用期望最大化算法计算得到模型参数
提取高斯超向量;
根据GMM-UBM、高斯超向量和总变化因子分析模型假设,计算总变化矩阵T;
计算总变化因子wn的期望;
将wn期望进行存储得到SI-vector特征向量,所述SI-vector特征向量为音频场景总变化因子特征向量。
2.一种基于长短时特征提取的音频场景识别装置,其特征在于,包括:
预处理模块,用于对输入待识别音频信号进行预处理;
短时提取模块,用于对经过预处理后的所述待识别音频信号,进行短时音频特征提取;
长时提取模块,用于在所述短时提取模块对短时音频特征提取后,进行长时音频特征提取;
输出模块,用于将所述待识别音频信号的所述长、短时音频特征联合,输入分类模型及其融合模型,进行分类和识别,输出音频场景的识别标签;
所述短时提取模块,具体用于短时窗内或者帧级别的短时音频特征提取;所述短时音频特征包括:时域特征、频域特征和倒谱特征;
所述长时提取模块,包括:
第一提取子模块,用于整条音频文件的音频场景高斯超向量特征提取;
第二提取子模块,用于音频场景总变化因子特征提取;
所述第一提取子模块,具体用于使用大量音频场景背景数据训练一个与目标场景无关的背景模型;然后针对每个音频场景进行最大后验估计,更新所述背景模型参数,得到不同目标场景的GMM模型;对所述目标场景均值向量进行更新得到采用计算统计量的方法将所述目标场景的均值向量拼接成一个高维的超向量Sn,所述Sn为音频场景高斯超向量;
所述第二提取子模块,具体用于构建GMM-UBM模型,采用期望最大化算法计算得到模型参数提取高斯超向量;根据GMM-UBM、高斯超向量和总变化因子分析模型假设,计算总变化矩阵T;计算总变化因子wn的期望;将wn期望进行存储得到SI-vector特征向量,所述SI-vector特征向量为音频场景总变化因子特征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;中国科学院声学研究所,未经国家计算机网络与信息安全管理中心;中国科学院声学研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810039421.3/1.html,转载请声明来源钻瓜专利网。