[发明专利]一种基于深度学习的鲸鱼活动音频分类方法有效

申请号：	201910994480.0	申请日：	2019-10-18
公开（公告）号：	CN110827837B	公开（公告）日：	2022-02-22
发明（设计）人：	巫海维;张东	申请（专利权）人：	中山大学
主分类号：	G10L17/26	分类号：	G10L17/26;G10L25/18;G06N3/04
代理公司：	广州粤高专利商标代理有限公司 44102	代理人：	王晓玲
地址：	510275 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度学习鲸鱼活动音频分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度学习的鲸鱼活动音频分类方法，其特征在于，包括以下步骤：

S1.采集水底语音数据；

S2.对采集的语音数据进行数据扩充，增加训练数据量；

S3.对扩充后的训练数据进行声学特征提取，将一维的语音序列转换成二维的声学特征序列；

S4.利用S3步骤的声学特征，分别训练两组神经网络模型，分别是基于帧的神经网络系统和基于语音片段的卷积神经网络系统；

S5.训练完基于帧的神经网络系统之后，判断出音频信号是否为鲸鱼叫声，提取基于帧的得分输出并做平均值处理，得到一组得分A；对于基于语音片段的卷积神经网络系统，训练卷积神经网络之后，利用该模型提取深度特征，用深度特征训练后端分类器，判断出音频信号是否为鲸鱼叫声，由后端分类器输出得分B；

S6.将得分A与得分B进行融合，得出最终的判断结果；

对于基于帧的神经网络系统的训练，在训练之前，对提取的声学特征进行前后若干帧的拼接，从而增加上下文信息；之后，将生成的新的帧级别特征输入到网络中，采用时延神经网络结构作为帧级别网络模型；

其中，所述的帧级别网络模型的计算流程包括：

S511.输入的声学特征序列首先会被依次送入全连接神经网络当中，输出一个新的序列特征；

S512.在新的特征上，按照设定的间隔，选取前后帧，与当前的帧的特征进行拼接；

S513.将新生成的特征输入下一层全连接网络当中，输出新的序列特征；

S514.逐渐扩大跳帧的间隔，从1扩大到3，再扩大到5，重复步骤S512和S513；

S515.在最后一层全连接中，输出二维的得分结果，分别代表是否存在鲸鱼叫声；

所述的基于语音片段的卷积神经网络系统，流程主要包括训练阶段和测试阶段；其中，训练阶段包括：

S5211.进行数据扩充，提取语音声学特征；

S5212.训练深度卷积神经网络；网络由三部分构成，第一部分是深度卷积结构，第二部分是编码层模块，第三部分是全连接层分类模块；

S5213.训练完神经网络之后，使用神经网络提取深度特征，对每一个通道的语音数据都提取深度卷积特征，然后对特征做平均融合，作为一整个信号的表示；融合的方法可以用在特征层面上，或者后端分类器得分上；

S5214.使用深度特征训练后端分类器；

测试阶段包括：

S5221.提取测试语音的声学特征；

S5222.使用训练阶段S5212步骤中得到的网络提取深度特征；

S5223.使用训练阶段S5214步骤中得到的后端分类器获取得分。

2.根据权利要求1所述的基于深度学习的鲸鱼活动音频分类方法，其特征在于，所述的数据扩充包括语速变化扩充、音频音调扩充、音频混合数据扩充。

3.根据权利要求1所述的基于深度学习的鲸鱼活动音频分类方法，其特征在于，所述的S3步骤中的声学特征提取选择提取对数梅尔频谱特征，提取方法包括以下步骤：

S31.对语音信号序列进行短时傅里叶变换；

S32.对生成的频率频谱图做梅尔变换；

S33.在进行梅尔变换处理完毕之后，进行对数变换，降低特征稀疏性。

4.根据权利要求1所述的基于深度学习的鲸鱼活动音频分类方法，其特征在于，所述的分类器选用SVM分类器、逻辑回归LR分类器或提升决策树GBDT分类器。

5.根据权利要求1所述的基于深度学习的鲸鱼活动音频分类方法，其特征在于，所述的S5212步骤具体包括：

首先：以残差神经网络结构作为卷积结构的基础，卷积结构由两个部分组成，第一个部分是普通的卷积层加池化层，第二个部分是由四个残差模块构成；两个部分级联在一起，将输入的特征转换成深度的特征图；残差模块除了将特征进行常规的卷积、池化操作之外，还通过降采样，把当前输入的特征加入到输出的特征中，从而使得前端的特征能够得以保留；四个残差模块中的卷积通道数目随着层数的增加，逐渐增大；

然后，通过卷积神经网络结构之后，声学特征被转换成了深度特征图；特征图需要经过编码层编码，编码层将多通道特征图转换成固定维度特征，即深度特征；

最后，输出信息通过全连接和激活层，得到最终的判断。

6.根据权利要求1至5任一项所述的基于深度学习的鲸鱼活动音频分类方法，其特征在于，所述的S6步骤中采用平均融合或回归融合；所述的平均融合是对两种不同类型的神经网络模型的得分进行平均，将平均结果作为最终的输出；所述的回归融合是通过线性回归学习两组神经网络模型的权重，按照权重对模型的输出进行加权相加，得到最终的判断得分。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中山大学，未经中山大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910994480.0/1.html，转载请声明来源钻瓜专利网。

上一篇：一种高导热高模量碳纤维中高温热膨胀性能测试装置
下一篇：隧道巡检系统

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L17-00 讲话者辨认或验证

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度学习的鲸鱼活动音频分类方法有效

专利文献下载