[发明专利]一种基于长短时特征提取的音频场景识别方法及装置有效
申请号: | 201810039421.3 | 申请日: | 2018-01-16 |
公开(公告)号: | CN108305616B | 公开(公告)日: | 2021-03-16 |
发明(设计)人: | 袁庆升;白海钏;张鹏远;包秀国;刘洋;张翠;汪立东;杜翠兰;时磊;张鸿;云晓春;颜永红;崔佳;林绅文;王钲淇 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心;中国科学院声学研究所 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/08;G10L15/14;G10L25/24 |
代理公司: | 北京方安思达知识产权代理有限公司 11472 | 代理人: | 陈琳琳;杨青 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 长短 特征 提取 音频 场景 识别 方法 装置 | ||
本发明涉及一种基于长短时特征提取的音频场景识别方法及装置,该方法包括,对输入待识别音频信号进行预处理;对经过预处理后的所述待识别音频信号,进行短时音频特征提取,再进行长时音频特征提取,将所述待识别音频信号的所述长、短时音频特征联合,输入分类模型及其融合模型,进行分类和识别,输出音频场景的识别标签。本发明在常规短时特征提取的基础之上,进一步联合音频场景长时特征,可以表征复杂的音频场景信息,输入分类模型及其融合模型,进行分类和识别,输出音频场景的识别标签,其鲁棒性更强、区分性更好,且能够在更大程度上表征场景数据的整体特性,识别效率高、稳定性强。
技术领域
本发明涉及音频场景识别领域,特别涉及一种基于长短时特征提取的音频场景识别方法及装置。
背景技术
伴随着信息化社会的发展和互联网技术的普及,大量的数字化音频内容充斥在日常生活当中。面对数据量的快速膨胀,传统基于手工本文标注和结构化先验知识的分析方法受到效率和稳定性的限制,无法实现对音频数据的内容分析和信息管理,从而使得真正被人关注的信息或有价值的知识被淹没在海量的音频大数据当中。与此同时,真实声音采集条件下的特定复杂场景同样限制了人们对数字化音频内容和事件的有效管理。这里音频场景的复杂性主要体现在背景声音的多样性及其时频非平稳特性、声场空间混响条件的不确定性以及多个声源目标的时频交叠性。在真实环境下对音频场景和事件检测需要模拟人类的听觉感知和音频场景理解机制,提取能够表征潜在的、有限的先验信息、具有某种规律和内容的特征信息,进而为音频内容中场景识别、事件检测以及音频内容高层语义的知识挖掘提供支撑,以期实现对海量音频数据的高效管理。
随着大数据和机器学习理论的迅猛发展,声音中所携带的信息已经可以被更深入地发掘和利用。音频场景分类通过采用信号处理和机器学习方法对一段连续音频流进行分析,辨别该段音频发生的环境场景,并联合特定的语义标签对系统输入的所有音频场景类别进行区分。一般来说,音频场景识别技术主要分为音频特征的提取和分类模型的构建两个方面。其中,特征提取模块对后续模型识别性能的提升具有至关重要的作用。目前音频场景识别主要采用传统识别特征,例如:短时能量、过零率、梅尔频率倒谱系数等及其变种、采用模型拟合或无监督学习得到的特征等,这些特征基本上都是在较短时间窗内进行分析和提取而得到。由于实际音频场景存在背景噪声等干扰声、场景采集的真实环境具有复杂性以及场景频谱结构具有多样性等原因,音频场景数据与语音和音乐信号相比,频谱结构更为复杂,甚至同一种场景数据也会呈现不同的时频动态变化。而且音频场景数据跟语音信号相比,具有较长时间范围内的稳定性,且存在更强的全局整体特性。因此目前借鉴其他领域采用帧级别的短时特征并不足以表征复杂的音频场景信息,需针对音频场景识别领域引入鲁棒性更强、区分性更好的特征提取方法,且能够在更大程度上表征场景数据的整体特性。
常见音频场景识别系统的流程图如图1所示,常见音频场景识别系统根据输入的音频文件,首先对其进行预处理,该模块具体包括音频格式转换、采样率转换,对格式统一后的音频信号进行分帧、加窗、预滤波和预加重等处理过程。然后,对经过预处理后的信号进行时域、频域和倒谱域等特征提取和不同方式的特征拼接过程。接下来,采用不同分类模型及其融合模型根据提取的特征进行分类和识别,这些模型包括GMM(Gaussian MixtureModel)、HMM(Hidden Markov Model)、SVM(Support Vector Machine)等传统分类模型,也可以是CNN(Convolutional Neural Network)、RNN(Recurrent Neural Network)、TDNN(Time-DelayNeuralNetwork)、LSTM(Long Short-Term Memory)等深度神经网络模型。最后对识别结果进行多数投票、打分融合等后处理过程得到最终的音频场景识别标签。
鉴于音频场景数据存在背景噪声干扰、场景采集环境复杂以及频谱结构多样等原因,目前很难找到能够充分表征不同音频场景信息的有效特征。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;中国科学院声学研究所,未经国家计算机网络与信息安全管理中心;中国科学院声学研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810039421.3/2.html,转载请声明来源钻瓜专利网。