[发明专利]音频监控中基于深度随机森林的声音事件分类方法有效

专利信息
申请号: 201911112306.5 申请日: 2019-11-14
公开(公告)号: CN110808070B 公开(公告)日: 2022-05-06
发明(设计)人: 余春艳;刘煌;李明达 申请(专利权)人: 福州大学
主分类号: G10L25/51 分类号: G10L25/51;G10L25/21;G06K9/62
代理公司: 福州元创专利商标代理有限公司 35100 代理人: 陈明鑫;蔡学俊
地址: 350108 福建省福州市*** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 音频 监控 基于 深度 随机 森林 声音 事件 分类 方法
【权利要求书】:

1.一种音频监控中基于深度随机森林的声音事件分类方法,其特征在于,包括以下步骤:

步骤S1:从监控的音频文件中提取梅尔能量特征,并将其处理成特征序列;

步骤S2:对每一类声音事件训练一个深度随机森林分类器,通过组合多个二分类模型,形成最终的深度随机森林声音事件分类模型;

步骤S3:使用最终的深度随机森林声音事件分类模型对声音事件进行预测,得到声音事件的预测概率;

步骤S4:根据得到的预测概率,进行事件分类后处理,得到声音事件分类结果;

所述步骤S1具体为:

步骤S11:将音频监控文件使用时长1.2秒,每隔0.02秒的滑动窗口进行切分,得到N个音频片;

步骤S12:将切分得到的每个音频片段内,按照帧长40ms,帧移20ms进行划分,得到61个音频帧;

步骤S13:对每个音频帧计算梅尔能量特征,得到每帧123维特征;

步骤S14:将61帧合成一个数据,最终得到N*61*123的特征,将得到的特征数据处理成N*7503维序列格式,构成特征序列;

所述训练深度随机森林分类器,具体为:

步骤S21:对于级联森林中第一层级联层,输入7503维原始特征;通过对森林中所有树求平均,该森林将输出一个2维类预测概率;

步骤S22:若每层级联层包含12个森林,则在第一层级联层的末端将得到7527维的特征向量,由12个2维类向量级联7503维原始特征向量得到;

步骤S23:每个级联层接收其前一级处理的特征信息,并且级联原始特征后作为下一层的输入特征,下一级联层使用该输入特征进行训练,级联层层数将持续进行纵向深度拓展;

步骤S24:每个个级联层训练完成后,将使用验证集判断性能是否得到提升,没有提升则级联层层数将停止纵向深度拓展;

所述步骤S3具体为:

步骤S31:通过计算不同类别的训练样例在叶子结点上所占的百分比,每一颗树都会产生一个预测概率;

步骤S32:将同一个森林的所有树的预测概率做平均,输出类预测概率;

所述步骤S4具体为:

步骤S41:将预测概率阈值设置为0.5,判断每1.2秒时长的音频片段数据里某一声音事件类出现次数是否大于等于10,若是,则分类出该声音事件的类别;

步骤S42:对事件进行平滑处理,合并相邻连续事件,同时设置允许存在的最小事件长度为0.05秒,如果事件长度小于0.05秒,则删除该事件,最终得到分类结果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911112306.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top