[发明专利]短时能量及梅尔倒谱系数联合新型矢量量化的低复杂度危险声场景判别方法有效
申请号: | 201910914499.X | 申请日: | 2019-09-26 |
公开(公告)号: | CN110610722B | 公开(公告)日: | 2022-02-08 |
发明(设计)人: | 贾懋珅;赵文兵 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G10L25/51 | 分类号: | G10L25/51;G10L25/24 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 吴荫芳 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 能量 梅尔倒 谱系 联合 新型 矢量 量化 复杂度 危险 声场 判别 方法 | ||
本发明属于智能应用型声场判别领域,具体涉及一种短时能量及梅尔倒谱系数联合矢量量化的危险声场景判别方法。该方法具体包括危险声场景声音库的建立、构建音频时频复合特征参数、引入改进型矢量量化模型对音频特征参数训练;在危险声场景匹配阶段利用欧式距离测度算法进行失真度匹配,找到最小平均误差失真度作为最佳匹配进而达到识别效果。
技术领域
本发明属于智能应用型声场判别领域,具体涉及一种短时能量及梅尔倒谱系数联合矢量量化的危险声场景判别方法。
背景技术
现实声场景中包含丰富的有用信息,当一个环境中存在着针对而言的潜在危险时,可通过对场景中声音的关键特征进行识别来达到对危险声环境检测的效果。当前,儿童的安全问题引起了社会及广大家长的高度重视。众所周知,在儿童活动生活的环境中,当出现一些非常规的声音时,意味着这个环境中存在潜在的危险。此时,如果能及时提醒儿童及家长,可有效避免针对儿童的危险事件发生。但当前电池发展遭遇瓶颈,现有佩戴式电子设备中电池容量较小、续航时间相对短,这给嵌入此类设备中的算法提出了更高的要求,希望嵌入的异常声音识别算法要简单、计算复杂度要低。然而,现有的声场识别算法复杂度都比较高,识别时间较长不能满足便携式电子设备的要求。
发明内容
针对低功耗便携式声场监控设备的要求,本发明主要研究低复杂度的危险声场景判决方法,应用于低供电量的便携式/佩戴式设备。本发明提供一种基于短时能量及梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients,MFCC)联合矢量量化的低复杂度危险声场景判别方法,该方法包括目标声音库的建立、基于时域的背景声音强度实时更新方法、基于频域的异常声音片段均值滤波MFCC参数提取方法、引入改进型矢量量化模型训练及异常声音匹配检测方法。
本发明的发明点在于构建了新的音频特征,即将帧能量E(m)替代MFCC的第一维系数组成新的梅尔频率倒谱系数矢量E-MFCC,由于现实声场中异常声音的特点大多比较尖锐、短促(如尖叫、爆炸声、哭泣声等)即,短时能量比较大,因此,可将音频的短时能量作为检测异常声音的一个特征,将时域的短时能量特征放到梅尔频率倒谱系的第一维中可一次性检测音频的能量与声学特征,简化了音频特征检测的步骤,降低了算法的复杂度;此外本发明通过对每段原始音频构建最佳码书,利用欧式距离测度算法进行失真度匹配,找到最小平均误差失真度即为最佳匹配进而达到识别效果。相比传统矢量量化,本发明方法灵活性更强,可同时识别多类音频。
本发明的技术方案用于解决实际场景中对目标声源进行精确感知重放困难的问题,通过检测实际场景中目标声源的类型来判断用户是否处于危险环境,主要分为以下几个步骤:
步骤1,构建声音特征与危险场景间映射关系
步骤2,训练阶段,建立异常声音模板库
步骤3,识别阶段,提取待检测声音的特征矢量与模板进行匹配,最终输出最优匹配结果。
有益效果
1、复杂度低且灵活性更强
2、便于嵌入到低耗能的设备中
3、经过改进的矢量量化可检测多类声音类型
4、经过复合的E-MFCC参数鲁棒性更高
该方法复杂度低、实时性高,解决了在低供电量的小型设备对危险声场景进行实时检测的问题,最重要的是本方法通过选用小样本量数据进行声信号特征空间分类,更易于实际操作。
附图说明
图1.声音类型与场景间映射关系
图2.危险声场景识别流程图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910914499.X/2.html,转载请声明来源钻瓜专利网。