[发明专利]音频监控中基于深度随机森林的声音事件分类方法有效
申请号: | 201911112306.5 | 申请日: | 2019-11-14 |
公开(公告)号: | CN110808070B | 公开(公告)日: | 2022-05-06 |
发明(设计)人: | 余春艳;刘煌;李明达 | 申请(专利权)人: | 福州大学 |
主分类号: | G10L25/51 | 分类号: | G10L25/51;G10L25/21;G06K9/62 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 陈明鑫;蔡学俊 |
地址: | 350108 福建省福州市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 监控 基于 深度 随机 森林 声音 事件 分类 方法 | ||
1.一种音频监控中基于深度随机森林的声音事件分类方法,其特征在于,包括以下步骤:
步骤S1:从监控的音频文件中提取梅尔能量特征,并将其处理成特征序列;
步骤S2:对每一类声音事件训练一个深度随机森林分类器,通过组合多个二分类模型,形成最终的深度随机森林声音事件分类模型;
步骤S3:使用最终的深度随机森林声音事件分类模型对声音事件进行预测,得到声音事件的预测概率;
步骤S4:根据得到的预测概率,进行事件分类后处理,得到声音事件分类结果;
所述步骤S1具体为:
步骤S11:将音频监控文件使用时长1.2秒,每隔0.02秒的滑动窗口进行切分,得到N个音频片;
步骤S12:将切分得到的每个音频片段内,按照帧长40ms,帧移20ms进行划分,得到61个音频帧;
步骤S13:对每个音频帧计算梅尔能量特征,得到每帧123维特征;
步骤S14:将61帧合成一个数据,最终得到N*61*123的特征,将得到的特征数据处理成N*7503维序列格式,构成特征序列;
所述训练深度随机森林分类器,具体为:
步骤S21:对于级联森林中第一层级联层,输入7503维原始特征;通过对森林中所有树求平均,该森林将输出一个2维类预测概率;
步骤S22:若每层级联层包含12个森林,则在第一层级联层的末端将得到7527维的特征向量,由12个2维类向量级联7503维原始特征向量得到;
步骤S23:每个级联层接收其前一级处理的特征信息,并且级联原始特征后作为下一层的输入特征,下一级联层使用该输入特征进行训练,级联层层数将持续进行纵向深度拓展;
步骤S24:每个个级联层训练完成后,将使用验证集判断性能是否得到提升,没有提升则级联层层数将停止纵向深度拓展;
所述步骤S3具体为:
步骤S31:通过计算不同类别的训练样例在叶子结点上所占的百分比,每一颗树都会产生一个预测概率;
步骤S32:将同一个森林的所有树的预测概率做平均,输出类预测概率;
所述步骤S4具体为:
步骤S41:将预测概率阈值设置为0.5,判断每1.2秒时长的音频片段数据里某一声音事件类出现次数是否大于等于10,若是,则分类出该声音事件的类别;
步骤S42:对事件进行平滑处理,合并相邻连续事件,同时设置允许存在的最小事件长度为0.05秒,如果事件长度小于0.05秒,则删除该事件,最终得到分类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911112306.5/1.html,转载请声明来源钻瓜专利网。