[发明专利]一种面向重叠声音事件检测的音频高层语义特征提取方法及系统在审
申请号: | 201911201939.3 | 申请日: | 2019-11-29 |
公开(公告)号: | CN110931046A | 公开(公告)日: | 2020-03-27 |
发明(设计)人: | 余春艳;刘煌;李明达 | 申请(专利权)人: | 福州大学 |
主分类号: | G10L25/30 | 分类号: | G10L25/30;G10L25/03 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 钱莉;蔡学俊 |
地址: | 350108 福建省福州市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 重叠 声音 事件 检测 音频 高层 语义 特征 提取 方法 系统 | ||
1.一种面向重叠声音事件检测的音频高层语义特征提取方法,其特征在于,包括以下步骤:
步骤S1:构建音频文件训练数据集,针对训练集中的不同场景的音频文件,选取梅尔能量特征构成输入矩阵;
步骤S2:构建CBG深度卷积神经网络,将步骤S1得到的输入矩阵输入CBG深度卷积神经网络中,进行训练;
步骤S3:对给定的音频文件,提取其梅尔能量特征,输入训练好的CBG深度卷积神经网络中,得到高层语义特征输出。
2.根据权利要求1所述的一种面向重叠声音事件检测的音频高层语义特征提取方法,其特征在于,步骤S1具体为:
步骤S11:构建音频高层语义特征提取网络的训练数据集;
步骤S12:对音频文件每隔1.2秒切分一个音频片段,对每一个音频片段标注其包含的多种声音事件;
步骤S13:对每个音频片段,按照帧长40ms、帧移20ms的方式得到61个音频帧,逐帧计算梅尔能量特征,每帧提取123维的梅尔能量特征,合并形成61帧123×1维大小的浅层梅尔能量特征序列,构成输入矩阵。
3.根据权利要求1所述的一种面向重叠声音事件检测的音频高层语义特征提取方法,其特征在于,所述训练数据集采用数据集TUT-SED 2016Home、TUT-SED 2016Residential和TUT-SED 2017Street。
4.根据权利要求1所述的一种面向重叠声音事件检测的音频高层语义特征提取方法,其特征在于,步骤S2具体为:
步骤S21:构建CBG深度卷积神经网络,该CBG深度卷积神经网络包括3层;第一层,通过卷积层提取抽象特征,激活函数为Relu,使用128个卷积核,大小为(3,3),边界填充采用的方式为same,再通过大小为1×5的最大池化层降低特征维度;第二层与第三层,通过卷积层提取抽象特征,激活函数为Relu,使用128个卷积核,大小为(3,3),边界填充为相同的方式,并通过大小为1×2的最大池化层降低特征维度;
步骤S22:把步骤S1构建好的61帧123×1维大小的浅层梅尔能量特征序列输入构建好的CBG深度卷积神经网络,进行网络训练,每个音频片段经由CBG深度卷积神经网络后得到61×768的高层语义特征。
5.根据权利要求1所述的一种面向重叠声音事件检测的音频高层语义特征提取方法,其特征在于,步骤S3具体为,对于给定的音频文件,每隔61帧,提取相应底层物理特征输入CBG卷积网络,得到按顺序输出的61×768维大小的高层语义特征。
6.一种面向重叠声音事件检测的音频高层语义特征提取系统,包括存储器与处理器,所述存储器中存储有能够被处理器运行的计算机程序,其特征在于,当处理器运行该计算机程序时,实现如权利要求1-5任一项所述的方法步骤。
7.一种计算机可读存储介质,其上存储有能够被处理器运行的计算机程序,其特征在于,当处理器运行该计算机程序时,实现如权利要求1-5任一项所述的方法步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911201939.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:大叶女贞扦插育苗方法
- 下一篇:蓄电池内阻检测系统及方法