[发明专利]一种基于轻量级卷积神经网络的嵌入式音频事件检测方法有效
申请号: | 201711315405.4 | 申请日: | 2017-12-12 |
公开(公告)号: | CN109919295B | 公开(公告)日: | 2022-10-28 |
发明(设计)人: | 邹月娴;张小虎 | 申请(专利权)人: | 北京大学深圳研究生院 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 北京万象新悦知识产权代理有限公司 11360 | 代理人: | 黄凤茹 |
地址: | 518055 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 轻量级 卷积 神经网络 嵌入式 音频 事件 检测 方法 | ||
1.一种基于轻量级卷积神经网络检测嵌入式音频事件的方法,基于膨胀卷积和特征求和构建轻量级膨胀卷积神经网络,采用构建的轻量级卷积神经网络L-D-CNN作为网络模型进行训练,再利用训练好的轻量级膨胀卷积神经网络检测嵌入式音频事件;
构建轻量级卷积神经网络模型包括如下过程:
A)构建膨胀卷积层,采用膨胀卷积层替代卷积层,使得神经网络模型对更长的时序信息进行建模;
膨胀卷积层针对卷积层的卷积核进行修改,通过在卷积层中卷积核的每个相邻元素中插入n个零值,使得卷积核由k*k的卷积核扩张成了[k+(k-1)*n]*[k+(k-1)*n]的膨胀卷积核,由此构建得到膨胀卷积层;
B)通过特征求和层对卷积神经网络中卷积层提取的高层局部特征进行压缩,减少模型的参数,以达到压缩网络的目的,使得神经网络可以在移动终端或嵌入式平台上应用;
所述特征求和层具体是:对于卷积神经网络的卷积层提取的高层局部特征的每一张特征图谱,通过式1进行计算,得到每一张特征图:
式1中,对于从底层卷积层输出的一个N*N大小的特征图,特征图中的像素为(a1,a2,…,ann),b为特征求和层对于每一张特征图的输出结果;通过特征求和层,每一张底层卷积层提取的局部特征均得到了压缩;
构建的轻量级膨胀卷积神经网络结构包括膨胀卷积层、池化层、特征求和层、输出层;
轻量级膨胀卷积神经网络模型训练阶段,执行如下操作:
11)扩增音频训练数据,通过特征提取,提取得到特征谱图,将特征谱图分割为多段相同大小的谱图片段;
12)将提取得到的特征谱图的每一段输入到压缩的膨胀轻量级卷积神经网络模型L-D-CNN中进行训练,包括如下过程:
121)将特征谱图输入到L-D-CNN的膨胀卷积层和池化层中进行学习,输出高层特征谱图;
122)将高层特征谱图输入到L-D-CNN的特征求和层;
123)特征求和层对高层特征谱图进行压缩;
124)将压缩后的特征输入到全连接层中;
125)全连接层通过综合局部特征学习全局特征后,输出到输出层和softmax分类器中;
13)通过多次循环训练,得到训练好的L-D-CNN网络模型;
轻量级膨胀卷积神经网络检测阶段,执行如下操作:
21)针对测试音频数据提取特征,得到特征谱图,将特征谱图分割为段数与步骤11)相同的谱图片段;每段谱图片段的大小相同;
22)将各段谱图片段特征谱图均输入到训练好的L-D-CNN网络模型中,输出多段谱图片段的分类矩阵;再将各段谱图片段的分类结果相乘得到最后的预测结果;
通过上述步骤,实现嵌入式音频事件的检测。
2.如权利要求1所述基于轻量级卷积神经网络检测嵌入式音频事件的方法,其特征是,音频数据的采样率为44100Hz,为单通道音频,每段音频为6s。
3.如权利要求1所述基于轻量级卷积神经网络检测嵌入式音频事件的方法,其特征是,将特征谱图分割为三段相同大小的谱图片段。
4.如权利要求1所述基于轻量级卷积神经网络检测嵌入式音频事件的方法,其特征是,特征谱图为log mel谱图和delta谱图。
5.如权利要求1所述基于轻量级卷积神经网络检测嵌入式音频事件的方法,其特征是,循环训练L-D-CNN网络模型的次数为100次。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学深圳研究生院,未经北京大学深圳研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711315405.4/1.html,转载请声明来源钻瓜专利网。