[发明专利]一种基于深度学习的鲸鱼活动音频分类方法有效

专利信息
申请号: 201910994480.0 申请日: 2019-10-18
公开(公告)号: CN110827837B 公开(公告)日: 2022-02-22
发明(设计)人: 巫海维;张东 申请(专利权)人: 中山大学
主分类号: G10L17/26 分类号: G10L17/26;G10L25/18;G06N3/04
代理公司: 广州粤高专利商标代理有限公司 44102 代理人: 王晓玲
地址: 510275 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深度 学习 鲸鱼 活动 音频 分类 方法
【权利要求书】:

1.一种基于深度学习的鲸鱼活动音频分类方法,其特征在于,包括以下步骤:

S1.采集水底语音数据;

S2.对采集的语音数据进行数据扩充,增加训练数据量;

S3.对扩充后的训练数据进行声学特征提取,将一维的语音序列转换成二维的声学特征序列;

S4.利用S3步骤的声学特征,分别训练两组神经网络模型,分别是基于帧的神经网络系统和基于语音片段的卷积神经网络系统;

S5.训练完基于帧的神经网络系统之后,判断出音频信号是否为鲸鱼叫声,提取基于帧的得分输出并做平均值处理,得到一组得分A;对于基于语音片段的卷积神经网络系统,训练卷积神经网络之后,利用该模型提取深度特征,用深度特征训练后端分类器,判断出音频信号是否为鲸鱼叫声,由后端分类器输出得分B;

S6.将得分A与得分B进行融合,得出最终的判断结果;

对于基于帧的神经网络系统的训练,在训练之前,对提取的声学特征进行前后若干帧的拼接,从而增加上下文信息;之后,将生成的新的帧级别特征输入到网络中,采用时延神经网络结构作为帧级别网络模型;

其中,所述的帧级别网络模型的计算流程包括:

S511.输入的声学特征序列首先会被依次送入全连接神经网络当中,输出一个新的序列特征;

S512.在新的特征上,按照设定的间隔,选取前后帧,与当前的帧的特征进行拼接;

S513.将新生成的特征输入下一层全连接网络当中,输出新的序列特征;

S514.逐渐扩大跳帧的间隔,从1扩大到3,再扩大到5,重复步骤S512和S513;

S515.在最后一层全连接中,输出二维的得分结果,分别代表是否存在鲸鱼叫声;

所述的基于语音片段的卷积神经网络系统,流程主要包括训练阶段和测试阶段;其中,训练阶段包括:

S5211.进行数据扩充,提取语音声学特征;

S5212.训练深度卷积神经网络;网络由三部分构成,第一部分是深度卷积结构,第二部分是编码层模块,第三部分是全连接层分类模块;

S5213.训练完神经网络之后,使用神经网络提取深度特征,对每一个通道的语音数据都提取深度卷积特征,然后对特征做平均融合,作为一整个信号的表示;融合的方法可以用在特征层面上,或者后端分类器得分上;

S5214.使用深度特征训练后端分类器;

测试阶段包括:

S5221.提取测试语音的声学特征;

S5222.使用训练阶段S5212步骤中得到的网络提取深度特征;

S5223.使用训练阶段S5214步骤中得到的后端分类器获取得分。

2.根据权利要求1所述的基于深度学习的鲸鱼活动音频分类方法,其特征在于,所述的数据扩充包括语速变化扩充、音频音调扩充、音频混合数据扩充。

3.根据权利要求1所述的基于深度学习的鲸鱼活动音频分类方法,其特征在于,所述的S3步骤中的声学特征提取选择提取对数梅尔频谱特征,提取方法包括以下步骤:

S31.对语音信号序列进行短时傅里叶变换;

S32.对生成的频率频谱图做梅尔变换;

S33.在进行梅尔变换处理完毕之后,进行对数变换,降低特征稀疏性。

4.根据权利要求1所述的基于深度学习的鲸鱼活动音频分类方法,其特征在于,所述的分类器选用SVM分类器、逻辑回归LR分类器或提升决策树GBDT分类器。

5.根据权利要求1所述的基于深度学习的鲸鱼活动音频分类方法,其特征在于,所述的S5212步骤具体包括:

首先:以残差神经网络结构作为卷积结构的基础,卷积结构由两个部分组成,第一个部分是普通的卷积层加池化层,第二个部分是由四个残差模块构成;两个部分级联在一起,将输入的特征转换成深度的特征图;残差模块除了将特征进行常规的卷积、池化操作之外,还通过降采样,把当前输入的特征加入到输出的特征中,从而使得前端的特征能够得以保留;四个残差模块中的卷积通道数目随着层数的增加,逐渐增大;

然后,通过卷积神经网络结构之后,声学特征被转换成了深度特征图;特征图需要经过编码层编码,编码层将多通道特征图转换成固定维度特征,即深度特征;

最后,输出信息通过全连接和激活层,得到最终的判断。

6.根据权利要求1至5任一项所述的基于深度学习的鲸鱼活动音频分类方法,其特征在于,所述的S6步骤中采用平均融合或回归融合;所述的平均融合是对两种不同类型的神经网络模型的得分进行平均,将平均结果作为最终的输出;所述的回归融合是通过线性回归学习两组神经网络模型的权重,按照权重对模型的输出进行加权相加,得到最终的判断得分。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910994480.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top