[发明专利]一种基于音频特征融合的杂交神经网络车型识别方法在审

专利信息
申请号: 201911288016.6 申请日: 2019-12-15
公开(公告)号: CN111028859A 公开(公告)日: 2020-04-17
发明(设计)人: 张志杰;陈昊泽;赵晨阳 申请(专利权)人: 中北大学
主分类号: G10L25/30 分类号: G10L25/30;G10L25/51;G06N3/08;G06N3/04;G08G1/017;G10L25/03;G10L25/21;G10L25/24
代理公司: 太原新航路知识产权代理事务所(特殊普通合伙) 14112 代理人: 王勇
地址: 030051 山*** 国省代码: 山西;14
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 音频 特征 融合 杂交 神经网络 车型 识别 方法
【权利要求书】:

1.一种基于音频特征融合的杂交神经网络车型识别方法,其特征在于:该方法是采用如下步骤实现的:

步骤一:对待训练车型的音频信号进行随机破坏:从破坏后的车辆音频信号中随机选取80%的车辆音频信号,然后在选取的车辆音频信号上叠加环境噪声;然后,对叠加环境噪声后的车辆音频信号进行预处理,并对预处理后的车辆音频信号进行特征提取,然后将提取的特征首尾拼接为带有标签的融合特征;所述提取的特征包括:梅尔倒谱系数特征、音级轮廓特征、一阶差分系数、短时能量特征;

步骤二:构建杂交神经网络;

步骤三:将带有标签的融合特征输入到杂交神经网络中进行有监督训练,并采用牛顿动量下降法优化调整杂交神经网络的权重和偏置,由此完成杂交神经网络的训练;

步骤四:将待识别车型的车辆音频信号输入到训练好的杂交神经网络中,由此输出车辆音频信号对应的车型类别标签,从而实现车型识别。

2.根据权利要求1所述的一种基于音频特征融合的杂交神经网络车型识别方法,其特征在于:所述步骤一中,所述环境噪声是以20dB的信噪比叠加在车辆音频信号上的;所述预处理步骤包括:分帧、加窗;

所述梅尔倒谱系数特征的维数为40维,其提取步骤如下:对预处理后的车辆音频信号进行快速傅里叶变换,并将变换得到的频谱输入到梅尔滤波器组,然后对梅尔滤波器组的输出信号依次进行对数运算、离散余弦变换,由此得到40维的梅尔倒谱系数特征;

所述音级轮廓特征的维数、一阶差分系数的维数均为12维,其提取步骤如下:对预处理后的车辆音频信号进行常数Q变换,并将变换得到的频谱映射到12个不同的半音级上,然后将所有与某一特定音级相对应的频率值分量进行累加,由此得到12维的音级轮廓特征和12维的一阶差分系数;

所述短时能量特征的维数为1维,其提取步骤如下:对预处理后的车辆音频信号进行平方运算,由此得到1维的短时能量特征;

所述融合特征的维数为65维。

3.根据权利要求1所述的一种基于音频特征融合的杂交神经网络车型识别方法,其特征在于:所述步骤二中,所述杂交神经网络按照数据流向依次包括:卷积层I、卷积层II、批量标准化层I、一维最大池化层I、卷积层III、一维最大池化层II、丢失层I、长短时神经网络层、批量标准化层II、丢失层II、批量标准化层III、分类层;

所述卷积层I的参数如下:卷积窗口的长度为16,步长为1,通道数为64,输出保持与输入相同尺寸,激活函数采用ReLU;

所述卷积层II的参数如下:卷积窗口的长度为8,步长为1,通道数为64,输出保持与输入相同尺寸,激活函数采用ReLU;

所述批量标准化层I的参数如下:移动均值和移动方差的动量为0.99;

所述一维最大池化层I的参数如下:池化窗口大小为3,池化步长为3;

所述卷积层III的参数如下:卷积窗口的长度为2,步长为1,通道数为128,输出保持与输入相同尺寸,激活函数采用ReLU;

所述一维最大池化层II的参数如下:池化窗口大小为3,池化步长为3;

所述丢失层I的参数如下:输入丢失比例为0.5;

所述长短时神经网络层的参数如下:输出维数为32;

所述批量标准化层II的参数如下:移动均值和移动方差的动量为0.99;

所述丢失层II的参数如下:输入丢失比例为0.5;

所述批量标准化层III的参数如下:移动均值和移动方差的动量为0.99;

所述分类层的参数如下:输出维数为分类种类个数,采用softmax回归分类器进行分类。

4.根据权利要求1所述的一种基于音频特征融合的杂交神经网络车型识别方法,其特征在于:所述步骤三中,所述有监督训练是采用小批量梯度下降方法进行的;在一个训练周期中,样本数为100,迭代次数为150;在训练过程中,学习率衰减是采用牛顿动量下降法进行的:学习率的初始值设为0.001,每次参数更新后学习率的衰减值为0.0001,动量参数为1。

5.根据权利要求2所述的一种基于音频特征融合的杂交神经网络车型识别方法,其特征在于:分帧时,帧长为128,帧移为64;加窗时,窗长为128。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中北大学,未经中北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911288016.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top