[发明专利]一种基于音色特征提取和深度学习的声源被动测距方法有效
申请号: | 202010037014.6 | 申请日: | 2020-01-14 |
公开(公告)号: | CN113189571B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 肖旭;倪海燕;王同;苏林;任群言;马力 | 申请(专利权)人: | 中国科学院声学研究所 |
主分类号: | G01S11/14 | 分类号: | G01S11/14;G06N3/047;G06N3/084 |
代理公司: | 北京方安思达知识产权代理有限公司 11472 | 代理人: | 陈琳琳;杨青 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 音色 特征 提取 深度 学习 声源 被动 测距 方法 | ||
本发明公开了一种基于音色特征提取和深度学习的声源被动测距方法,所述方法包括:从实时声信号中提取时域特征、基于短时傅里叶变换的谱特征、基于等效矩形带宽的听觉谱特征和基于正弦谐波模型的谐波谱特征;从每个特征中分别提取若干个音色描述符,组成68维音色描述符向量;将68维音色描述符向量输入预先建立的深度神经网络,输出各个距离对应的概率分布,取概率最大的为作为距离预测值。本发明的方法能够在1~10km的距离范围内达到95%以上测距精度,最高达到99.54%。
技术领域
本发明涉及水声物理领域,具体涉及一种基于音色特征提取和深度学习的声源被动测距方法。
背景技术
声源被动测距作为声纳系统的一项主要功能,多年来一直是水声工作者致力于解决的问题。由于海洋是一种时变、空变的复杂声信道,传统的匹配场方法测距时往往面临环境失配、计算量太大等问题。近年来,深度学习作为基于数据驱动方式的新兴分支,以其强大的特征提取能力和处理复杂、高维、非线性等数据的独特优势,为水声被动测距提供了一种新思路。
深度学习特征的提取和构造是水下目标被动定位的关键环节。声信号的音色包含了声源和水下声场的大量信息,利用水声信号中提取的音色特征和深度神经网络构建声源测距模型,能够实现对声源距离的有效识别。
发明内容
本发明的目的在于克服上述技术缺陷,提出一种基于音色特征提取和深度学习的方法来实现声源被动测距。利用MATLAB从声信号中提取时域波形特征、时域包络特征、基于短时傅里叶变换(STFT)的谱特征、基于等效矩形带宽的听觉谱特征和基于正弦谐波模型的谐波谱特征,在此基础上提取一套完整的音色描述符,并将其作为模型输入,通过深度神经网络实现声源距离的估计。
为实现上述目的,本发明提供了一种基于音色特征提取和深度学习的声源被动测距方法,所述方法包括:
从实时声信号中提取时域特征、基于短时傅里叶变换的谱特征、基于等效矩形带宽的听觉谱特征和基于正弦谐波模型的谐波谱特征;
从每个特征中分别提取若干个音色描述符,组成68维音色描述符向量;
将68维音色描述符向量输入预先建立的深度神经网络,输出各个距离对应的概率分布,取概率最大的为作为距离预测值。
作为上述方法的一种改进,所述时域特征包括:时域波形特征和时域包络特征;从时域特征中提取的音色描述符包括启奏时间、衰减时间、释音残响时间、对数启奏时间、启奏斜率、下降斜率、时域质心、有效持续时间、频率调制、振幅调制、过零率和RMS能量包络;
从基于短时傅里叶变换的谱特征提取的音色描述符包括:谱质心、谱延展、谱偏度、谱峰度、谱斜率、谱下降率、谱滚降、谱通量和频谱能量;
从基于等效矩形带宽的听觉谱特征提取的音色描述符包括:谱质心、谱延展、谱偏度、谱峰度、谱斜率、谱下降率、谱滚降、谱通量和频谱能量;
从基于正弦谐波模型的谐波谱特征提取的音色描述符包括:谱质心、谱延展、谱偏度、谱峰度、谱斜率、谱下降率、谱滚降、谱通量和频谱能量。
作为上述方法的一种改进,所述深度神经网络的输入层输入的是68维音色描述符向量;
所述深度神经网络的隐层激活函数采用双曲正切函数;
所述深度神经网络的输出层采用200个Softmax节点,对应不同的距离的概率分布。
作为上述方法的一种改进,所述方法还包括:深度神经网络的训练步骤,具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所,未经中国科学院声学研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010037014.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种遥控器壳体连接结构
- 下一篇:一种便于拆下的粘接定位装置