[发明专利]一种基于深度学习的鲸鱼活动音频分类方法有效
申请号: | 201910994480.0 | 申请日: | 2019-10-18 |
公开(公告)号: | CN110827837B | 公开(公告)日: | 2022-02-22 |
发明(设计)人: | 巫海维;张东 | 申请(专利权)人: | 中山大学 |
主分类号: | G10L17/26 | 分类号: | G10L17/26;G10L25/18;G06N3/04 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 王晓玲 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 鲸鱼 活动 音频 分类 方法 | ||
1.一种基于深度学习的鲸鱼活动音频分类方法,其特征在于,包括以下步骤:
S1.采集水底语音数据;
S2.对采集的语音数据进行数据扩充,增加训练数据量;
S3.对扩充后的训练数据进行声学特征提取,将一维的语音序列转换成二维的声学特征序列;
S4.利用S3步骤的声学特征,分别训练两组神经网络模型,分别是基于帧的神经网络系统和基于语音片段的卷积神经网络系统;
S5.训练完基于帧的神经网络系统之后,判断出音频信号是否为鲸鱼叫声,提取基于帧的得分输出并做平均值处理,得到一组得分A;对于基于语音片段的卷积神经网络系统,训练卷积神经网络之后,利用该模型提取深度特征,用深度特征训练后端分类器,判断出音频信号是否为鲸鱼叫声,由后端分类器输出得分B;
S6.将得分A与得分B进行融合,得出最终的判断结果;
对于基于帧的神经网络系统的训练,在训练之前,对提取的声学特征进行前后若干帧的拼接,从而增加上下文信息;之后,将生成的新的帧级别特征输入到网络中,采用时延神经网络结构作为帧级别网络模型;
其中,所述的帧级别网络模型的计算流程包括:
S511.输入的声学特征序列首先会被依次送入全连接神经网络当中,输出一个新的序列特征;
S512.在新的特征上,按照设定的间隔,选取前后帧,与当前的帧的特征进行拼接;
S513.将新生成的特征输入下一层全连接网络当中,输出新的序列特征;
S514.逐渐扩大跳帧的间隔,从1扩大到3,再扩大到5,重复步骤S512和S513;
S515.在最后一层全连接中,输出二维的得分结果,分别代表是否存在鲸鱼叫声;
所述的基于语音片段的卷积神经网络系统,流程主要包括训练阶段和测试阶段;其中,训练阶段包括:
S5211.进行数据扩充,提取语音声学特征;
S5212.训练深度卷积神经网络;网络由三部分构成,第一部分是深度卷积结构,第二部分是编码层模块,第三部分是全连接层分类模块;
S5213.训练完神经网络之后,使用神经网络提取深度特征,对每一个通道的语音数据都提取深度卷积特征,然后对特征做平均融合,作为一整个信号的表示;融合的方法可以用在特征层面上,或者后端分类器得分上;
S5214.使用深度特征训练后端分类器;
测试阶段包括:
S5221.提取测试语音的声学特征;
S5222.使用训练阶段S5212步骤中得到的网络提取深度特征;
S5223.使用训练阶段S5214步骤中得到的后端分类器获取得分。
2.根据权利要求1所述的基于深度学习的鲸鱼活动音频分类方法,其特征在于,所述的数据扩充包括语速变化扩充、音频音调扩充、音频混合数据扩充。
3.根据权利要求1所述的基于深度学习的鲸鱼活动音频分类方法,其特征在于,所述的S3步骤中的声学特征提取选择提取对数梅尔频谱特征,提取方法包括以下步骤:
S31.对语音信号序列进行短时傅里叶变换;
S32.对生成的频率频谱图做梅尔变换;
S33.在进行梅尔变换处理完毕之后,进行对数变换,降低特征稀疏性。
4.根据权利要求1所述的基于深度学习的鲸鱼活动音频分类方法,其特征在于,所述的分类器选用SVM分类器、逻辑回归LR分类器或提升决策树GBDT分类器。
5.根据权利要求1所述的基于深度学习的鲸鱼活动音频分类方法,其特征在于,所述的S5212步骤具体包括:
首先:以残差神经网络结构作为卷积结构的基础,卷积结构由两个部分组成,第一个部分是普通的卷积层加池化层,第二个部分是由四个残差模块构成;两个部分级联在一起,将输入的特征转换成深度的特征图;残差模块除了将特征进行常规的卷积、池化操作之外,还通过降采样,把当前输入的特征加入到输出的特征中,从而使得前端的特征能够得以保留;四个残差模块中的卷积通道数目随着层数的增加,逐渐增大;
然后,通过卷积神经网络结构之后,声学特征被转换成了深度特征图;特征图需要经过编码层编码,编码层将多通道特征图转换成固定维度特征,即深度特征;
最后,输出信息通过全连接和激活层,得到最终的判断。
6.根据权利要求1至5任一项所述的基于深度学习的鲸鱼活动音频分类方法,其特征在于,所述的S6步骤中采用平均融合或回归融合;所述的平均融合是对两种不同类型的神经网络模型的得分进行平均,将平均结果作为最终的输出;所述的回归融合是通过线性回归学习两组神经网络模型的权重,按照权重对模型的输出进行加权相加,得到最终的判断得分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910994480.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高导热高模量碳纤维中高温热膨胀性能测试装置
- 下一篇:隧道巡检系统