[发明专利]基于卷积神经网络与随机森林分类的声音场景识别方法在审

申请号：	201810038744.0	申请日：	2018-01-13
公开（公告）号：	CN108231067A	公开（公告）日：	2018-06-29
发明（设计）人：	李应;李俊华	申请（专利权）人：	福州大学
主分类号：	G10L15/16	分类号：	G10L15/16;G10L15/06;G10L25/21;G10L25/24;G10L25/30;G10L25/45;G06K9/62
代理公司：	福州元创专利商标代理有限公司 35100	代理人：	蔡学俊
地址：	350108 福建省福***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	声音场景样本集随机森林卷积神经网络分类高斯混合模型频率倒谱系数滤波器生成评估数据特征结合连接层两阶段能量谱识别率截断输出
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于卷积神经网络与随机森林分类的声音场景识别方法，其特征在于：首先，声音场景通过Mel滤波器生成Mel能量谱及其片段样本集；然后，利用片段样本集对CNN进行两阶段训练，截断全连接层的特征输出，得到片段样本集的CNN特征；最后，用随机森林对片段样本集的CNN特征进行分类，得到最终识别结果。

2.根据权利要求1所述的基于卷积神经网络与随机森林分类的声音场景识别方法，其特征在于：所述声音场景通过Mel滤波器生成Mel能量谱及其片段样本集，即通过对各种不同长度的场景声音样本提取Mel能量谱，通过分片采样，得到大小一致的Mel能量谱片段作为CNN模型的训练样本。

3.根据权利要求1或2所述的基于卷积神经网络与随机森林分类的声音场景识别方法，其特征在于：所述声音场景通过Mel滤波器生成Mel能量谱及其片段样本集的具体实现方式如下，

步骤S1、场景声音信号s(n)经过短时傅里叶变换得到短时幅度谱|S(t,f)|

其中，t为帧索引，f为频率，w(n)为分析窗函数；

步骤S2、由短时幅度谱|S(t,f)|得到信号s(n)的能量密度函数P(t,f)

P(t,f)＝S(t,f)×conj(S(t,f))＝|S(t,f)|² (2)

其中，conj为求共轭复数函数；

步骤S3、使用Mel滤波器组对能量密度函数P(t,f)进行滤波得到Mel滤波后的能量密度函数

其中，N表示Mel滤波器组由N个三角带通滤波器构成，B_m[k]表示中心频率为f_m且响应频率范围为(f_m-1,f_m+1)的三角带通滤波器的频率响应函数；B_m[k]可以由下式表示：

其中，Mel滤波器的中心频率f_m可通过对应的时域频率f得到；

步骤S4、Mel滤波后的能量密度函数通过规范化log尺度得到Mel能量谱P_mel(t,f)

步骤S5、对产生的Mel能量谱P_mel(t,f)进行分片采样，即采用滑动窗口取得Mel能量谱的片段；

通过上述的过程，将场景声音的时域信号转化为时频域的二维图谱，即Mel能量谱及能量谱片段。

4.根据权利要求3所述的基于卷积神经网络与随机森林分类的声音场景识别方法，其特征在于：所述CNN结构包括卷积层conv1、最大值池化层maxpool1、卷积层conv2、卷积层conv3、最大值池化层maxpool2、全连接层fc1、全连接层fc2和输出层。

5.根据权利要求4所述的基于卷积神经网络与随机森林分类的声音场景识别方法，其特征在于：所述卷积层conv1、卷积层conv2、卷积层conv3均采用无偏置和宽卷积运算，且卷积核大小均为3×3，卷积窗滑动步长为1，卷积核个数分别为32，64，64；所述最大值池化层maxpool1和最大值池化层maxpool2的池化窗大小为2×2，池化窗滑动步长为2；所述全连接层fc1和全连接层fc2神经元个数为512，输出层神经元个数为15；各层激活函数均采用修正线性单元；卷积层conv1在激活函数激活前，对该层的净激活值进行批标准化，卷积层conv2和卷积层conv3在激活函数激活前，加入l2正则化对卷积核参数本身进行惩罚；在全连接层fc1和全连接层fc2，采用0.5概率的Dropout训练策略，即在训练中随机让该层一定比例的神经元保留权重而不做输出；在输出层，全连接层产生的特征通过softmax激活得到分类的结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于福州大学，未经福州大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810038744.0/1.html，转载请声明来源钻瓜专利网。

上一篇：语音识别系统及其方法与词汇建立方法
下一篇：一种智能网关系统及语音服务提供方法和装置

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于卷积神经网络与随机森林分类的声音场景识别方法在审

专利文献下载