[发明专利]一种基于音频特征融合的杂交神经网络车型识别方法在审
申请号: | 201911288016.6 | 申请日: | 2019-12-15 |
公开(公告)号: | CN111028859A | 公开(公告)日: | 2020-04-17 |
发明(设计)人: | 张志杰;陈昊泽;赵晨阳 | 申请(专利权)人: | 中北大学 |
主分类号: | G10L25/30 | 分类号: | G10L25/30;G10L25/51;G06N3/08;G06N3/04;G08G1/017;G10L25/03;G10L25/21;G10L25/24 |
代理公司: | 太原新航路知识产权代理事务所(特殊普通合伙) 14112 | 代理人: | 王勇 |
地址: | 030051 山*** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 音频 特征 融合 杂交 神经网络 车型 识别 方法 | ||
1.一种基于音频特征融合的杂交神经网络车型识别方法,其特征在于:该方法是采用如下步骤实现的:
步骤一:对待训练车型的音频信号进行随机破坏:从破坏后的车辆音频信号中随机选取80%的车辆音频信号,然后在选取的车辆音频信号上叠加环境噪声;然后,对叠加环境噪声后的车辆音频信号进行预处理,并对预处理后的车辆音频信号进行特征提取,然后将提取的特征首尾拼接为带有标签的融合特征;所述提取的特征包括:梅尔倒谱系数特征、音级轮廓特征、一阶差分系数、短时能量特征;
步骤二:构建杂交神经网络;
步骤三:将带有标签的融合特征输入到杂交神经网络中进行有监督训练,并采用牛顿动量下降法优化调整杂交神经网络的权重和偏置,由此完成杂交神经网络的训练;
步骤四:将待识别车型的车辆音频信号输入到训练好的杂交神经网络中,由此输出车辆音频信号对应的车型类别标签,从而实现车型识别。
2.根据权利要求1所述的一种基于音频特征融合的杂交神经网络车型识别方法,其特征在于:所述步骤一中,所述环境噪声是以20dB的信噪比叠加在车辆音频信号上的;所述预处理步骤包括:分帧、加窗;
所述梅尔倒谱系数特征的维数为40维,其提取步骤如下:对预处理后的车辆音频信号进行快速傅里叶变换,并将变换得到的频谱输入到梅尔滤波器组,然后对梅尔滤波器组的输出信号依次进行对数运算、离散余弦变换,由此得到40维的梅尔倒谱系数特征;
所述音级轮廓特征的维数、一阶差分系数的维数均为12维,其提取步骤如下:对预处理后的车辆音频信号进行常数Q变换,并将变换得到的频谱映射到12个不同的半音级上,然后将所有与某一特定音级相对应的频率值分量进行累加,由此得到12维的音级轮廓特征和12维的一阶差分系数;
所述短时能量特征的维数为1维,其提取步骤如下:对预处理后的车辆音频信号进行平方运算,由此得到1维的短时能量特征;
所述融合特征的维数为65维。
3.根据权利要求1所述的一种基于音频特征融合的杂交神经网络车型识别方法,其特征在于:所述步骤二中,所述杂交神经网络按照数据流向依次包括:卷积层I、卷积层II、批量标准化层I、一维最大池化层I、卷积层III、一维最大池化层II、丢失层I、长短时神经网络层、批量标准化层II、丢失层II、批量标准化层III、分类层;
所述卷积层I的参数如下:卷积窗口的长度为16,步长为1,通道数为64,输出保持与输入相同尺寸,激活函数采用ReLU;
所述卷积层II的参数如下:卷积窗口的长度为8,步长为1,通道数为64,输出保持与输入相同尺寸,激活函数采用ReLU;
所述批量标准化层I的参数如下:移动均值和移动方差的动量为0.99;
所述一维最大池化层I的参数如下:池化窗口大小为3,池化步长为3;
所述卷积层III的参数如下:卷积窗口的长度为2,步长为1,通道数为128,输出保持与输入相同尺寸,激活函数采用ReLU;
所述一维最大池化层II的参数如下:池化窗口大小为3,池化步长为3;
所述丢失层I的参数如下:输入丢失比例为0.5;
所述长短时神经网络层的参数如下:输出维数为32;
所述批量标准化层II的参数如下:移动均值和移动方差的动量为0.99;
所述丢失层II的参数如下:输入丢失比例为0.5;
所述批量标准化层III的参数如下:移动均值和移动方差的动量为0.99;
所述分类层的参数如下:输出维数为分类种类个数,采用softmax回归分类器进行分类。
4.根据权利要求1所述的一种基于音频特征融合的杂交神经网络车型识别方法,其特征在于:所述步骤三中,所述有监督训练是采用小批量梯度下降方法进行的;在一个训练周期中,样本数为100,迭代次数为150;在训练过程中,学习率衰减是采用牛顿动量下降法进行的:学习率的初始值设为0.001,每次参数更新后学习率的衰减值为0.0001,动量参数为1。
5.根据权利要求2所述的一种基于音频特征融合的杂交神经网络车型识别方法,其特征在于:分帧时,帧长为128,帧移为64;加窗时,窗长为128。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中北大学,未经中北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911288016.6/1.html,转载请声明来源钻瓜专利网。