[发明专利]音频事件检测方法、系统、移动终端及存储介质在审
申请号: | 201911207416.X | 申请日: | 2019-11-29 |
公开(公告)号: | CN110942766A | 公开(公告)日: | 2020-03-31 |
发明(设计)人: | 陈剑超;肖龙源;李稀敏;蔡振华;刘晓葳 | 申请(专利权)人: | 厦门快商通科技股份有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/16;G10L25/03;G10L25/30 |
代理公司: | 厦门仕诚联合知识产权代理事务所(普通合伙) 35227 | 代理人: | 乐珠秀 |
地址: | 361009 福建省厦门市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 事件 检测 方法 系统 移动 终端 存储 介质 | ||
本发明适用于语音识别技术领域,提供了一种音频事件检测方法、系统、移动终端及存储介质,该方法包括:获取原始音频信号,对原始音频信号进行特征提取,以得到音频特征;将音频特征输入神经网络模型中进行瓶颈特征提取和合并,以得到深层变换特征;对深层变换特征进行降维处理,以得到特征矢量,并将特征矢量作为当前帧的信息输入神经网络模型;获取训练集数据和待检测数据,根据训练集数据对神经网络模型进行训练,并将待检测数据输入至训练后的神经网络模型进行事件分析,以得到音频事件检测结果。本发明通过基于音频特征和深层变换特征的提取,提高了神经网络模型音频事件检测的准确性。
技术领域
本发明属于语音识别技术领域,尤其涉及一种音频事件检测方法、系统、移动终端及存储介质。
背景技术
音频事件检测是指对连续音频信号流中具有明确语义的片段进行检测与标定的过程。它是机器对环境声音场景进行识别和语义理解的重要基础,并将在未来机器人声音环境的语义理解、无人车行车周边环境的声音感知等方面发挥重要的作用。
音频事件检测与语音识别类似,都属于模式识别问题。目前音频事件检测所采用的音频特征大多来自于语音识别领域,但由于各类音频事件与语音信号的产生机理不同,且各类音频事件的时频特性更多复杂多变,进而使得现有的音频事件的检测准确率低下。
发明内容
本发明实施例的目的在于提供一种音频事件检测方法、系统、移动终端及存储介质,旨在解决现有的音频事件检测方法中,其音频事件的检测准确率低下的问题。
本发明实施例是这样实现的,一种音频事件检测方法,所述方法包括:
获取原始音频信号,对所述原始音频信号进行特征提取,以得到音频特征;
将所述音频特征输入神经网络模型中进行瓶颈特征提取和合并,以得到深层变换特征,所述神经网络模型中至少设有一层深度神经网络;
对所述深层变换特征进行降维处理,以得到特征矢量,并将所述特征矢量作为当前帧的信息输入所述神经网络模型;
获取训练集数据和待检测数据,根据所述训练集数据对所述神经网络模型进行训练,并将所述待检测数据输入至训练后的所述神经网络模型进行事件分析,以得到音频事件检测结果。
更进一步的,所述将所述音频特征输入神经网络模型中进行瓶颈特征提取和合并的步骤包括:
将所述音频特征输入当前层深度神经网络进行所述瓶颈特征的提取和合并,以得到音频矢量;
将所述音频矢量作为下一层深度神经网络的输入,并控制所述下一层深度神经网络依序对所述音频矢量进行所述瓶颈特征的提取和合并;
将最后层深度神经网络提取出的所述瓶颈特征设置为所述深层变换特征。
更进一步的,所述对所述深层变换特征进行降维处理的步骤包括:
采用离散余弦变换去除所述深层变换特征中的冗余信息。
更进一步的,所述对所述原始音频信号进行特征提取的步骤包括:
对所述原始音频信号进行预加重处理,并对预加重处理后的所述原始音频信号进行分帧处理;
对分帧处理的后的所述原始音频信号进行加窗处理,并将加窗处理后的所述原始音频信号进行滤波;
对滤波后的所述原始音频信号进行对数运算,并对对数运算后的所述原始音频信号进行离散余弦变换,以得到所述音频特征。
更进一步的,所述将加窗处理后的所述原始音频信号进行滤波的步骤之前,所述方法还包括:
对加窗处理后的所述原始音频信号进行傅里叶变换,以得到所述原始音频信号对应的功率谱。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门快商通科技股份有限公司,未经厦门快商通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911207416.X/2.html,转载请声明来源钻瓜专利网。