[发明专利]一种面向重叠声音事件检测的音频高层语义特征提取方法及系统在审
申请号: | 201911201939.3 | 申请日: | 2019-11-29 |
公开(公告)号: | CN110931046A | 公开(公告)日: | 2020-03-27 |
发明(设计)人: | 余春艳;刘煌;李明达 | 申请(专利权)人: | 福州大学 |
主分类号: | G10L25/30 | 分类号: | G10L25/30;G10L25/03 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 钱莉;蔡学俊 |
地址: | 350108 福建省福州市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 重叠 声音 事件 检测 音频 高层 语义 特征 提取 方法 系统 | ||
本发明涉及一种面向重叠声音事件检测的音频高层语义特征提取方法及系统,首先构建音频文件训练数据集,针对训练集中的不同场景的音频文件,选取梅尔能量特征构成输入矩阵;然后构建CBG深度卷积神经网络,将步骤S1得到的输入矩阵输入CBG深度卷积神经网络中,进行训练;最后对给定的音频文件,提取其梅尔能量特征,输入训练好的CBG深度卷积神经网络中,得到高层语义特征输出。本发明将传统音频物理特征变换为高层语义特征,可以提高后续检测的精度。
技术领域
本发明涉及复杂音频的重叠声音事件处理技术领域,特别是一种面向重叠声音事件检测的音频高层语义特征提取方法及系统。
背景技术
音频分为简单音频和复杂音频。简单音频指那些只包含一种音频事件的音频,如纯语音、脚步声等。复杂音频指包含多种音频事件的音频,如电影里面时间稍长的一段音频,可能包含枪声、语音、音乐等,且这些音频事件之间可能在时间上有重叠。
声音事件检测所使用的声音特征大多沿用语音信号在时频域、倒谱域和频域的特征,也有同时基于时频域、倒谱域和频域的特征进行多种特征融合。总结DCASE参赛的方法来看,最常用的声音事件特征包括梅尔能量、梅尔频率倒谱系数和线性预测倒谱系数等。
梅尔能量特征将线性频谱映射到基于听觉感知的Mel非线性频谱中,一般频率转换到Mel频率计算公式为:
提取该特征时,先将声音信号经过预加重、分帧和加窗处理后,计算其快速傅里叶变换(Fast Fourier Transform,FFT)得到对应的频谱,再使用一组三角形带通滤波器所组成的梅尔刻度滤波器对功率谱使用向量乘法,最后计算得到梅尔能量特征。
然而,传统的物理特征提取技术应用与重叠声音事件检测时,大都需要从声音信号本身出发,挖掘其时频特性,作出假设,建立物理模型,很多参数都需要人工进行精细化微调,比较费时费力,计算量大。
发明内容
有鉴于此,本发明的目的是提出一种面向重叠声音事件检测的音频高层语义特征提取方法及系统,将传统音频物理特征变换为高层语义特征,可以提高后续检测的精度。
本发明采用以下方案实现:一种面向重叠声音事件检测的音频高层语义特征提取方法,具体包括以下步骤:
步骤S1:构建音频文件训练数据集,针对训练集中的不同场景的音频文件,选取梅尔能量特征构成输入矩阵;
步骤S2:构建CBG深度卷积神经网络,将步骤S1得到的输入矩阵输入CBG深度卷积神经网络中,进行训练;
步骤S3:对给定的音频文件,提取其梅尔能量特征,输入训练好的CBG深度卷积神经网络中,得到高层语义特征输出,以便后续对相应声音片段包含的多种声音事件进行检测。
进一步地,步骤S1具体为:
步骤S11:构建音频高层语义特征提取网络的训练数据集;
步骤S12:对音频文件每隔1.2秒切分一个音频片段,对每一个音频片段标注其包含的多种声音事件;
步骤S13:对每个音频片段,按照帧长40ms、帧移20ms的方式得到61个音频帧,逐帧计算梅尔能量特征,每帧提取123维的梅尔能量特征,合并形成61帧123×1维大小的浅层梅尔能量特征序列,构成输入矩阵。
进一步地,所述训练数据集采用数据集TUT-SED 2016Home(Home)、TUT-SED2016Residential(Resi)和TUT-SED 2017Street(Street)。
进一步地,步骤S2具体为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911201939.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:大叶女贞扦插育苗方法
- 下一篇:蓄电池内阻检测系统及方法