[发明专利]一种环境声音分类分析方法、装置和介质在审
申请号: | 202210403964.5 | 申请日: | 2022-04-18 |
公开(公告)号: | CN114882909A | 公开(公告)日: | 2022-08-09 |
发明(设计)人: | 刘立峰;宋卫华;冯志峰;母健康;王文重;张建军 | 申请(专利权)人: | 珠海高凌信息科技股份有限公司 |
主分类号: | G10L25/51 | 分类号: | G10L25/51;G10L25/30;G10L21/0332;G10L21/0208 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 张志辉 |
地址: | 519060 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 环境 声音 分类 分析 方法 装置 介质 | ||
本申请公开了一种环境声音分类分析方法、装置和介质,其中的方法包括:对语音训练数据进行数据增强;进行数据预处理并对环境声音进行特征提取,得到特征向量;采用深度CNN网络对所述特征向量进行模型训练,获得所述环境声音的多分类模型并输出。本申请采用了数据增强的方法,通过实验表明其训练效果相比没有数据增强有了较大提升,提高了系统的实用价值。
技术领域
本申请涉及声音分类领域,尤其是一种环境声音分类分析方法、装置和介质。
背景技术
环境声音分类的使用任务能够应用于分类不同的乐器、机器人导航、医疗或医疗问题、客户或买家提醒、犯罪警报系统、语音活动识别、基于音频的灾难识别、环境监测等。声音分类可以参与到许多应用中,这表明了它的重要性。声音的分类是为了识别小的音频剪辑或录音的声音类别。对从音频信号中得到的接收到的信息进行了详细的分析。认识到周围声音的环境并立即采取行动以降低风险是非常重要的。
相关技术采用的环境声音分类技术多为通过提取环境声音的mfcc及机器学习分类方法实现,这种方法较为简单,并且由于环境声音的噪音较多,对环境声音分类分析的精确度较低。
因此,相关技术存在的上述技术问题亟待解决。
发明内容
本申请旨在解决相关技术中的技术问题之一。为此,本申请实施例提供一种环境声音分类分析方法、装置和介质,能够较为准确地对环境声音进行分类和分析。
根据本申请实施例一方面,提供一种环境声音分类分析方法,所述方法包括:
对语音训练数据进行数据增强;
进行数据预处理并对环境声音进行特征提取,得到特征向量;
采用深度CNN网络对所述特征向量进行模型训练,获得所述环境声音的多分类模型并输出。
在其中一个实施例中,所述对语音训练数据进行数据增强,至少包括:
移动正音高:对所述环境声音的数据集中每个音频信号的音高都增加一个正因子;
移动负音高:对所述环境声音的数据集中每个音频信号的音高都增加一个负因子;
静音修剪:修剪音频剪辑的静音部分,只保留包含声音的部分;
快速拉伸时间:将数据集的每个声音剪辑的时间拉伸到原来的2倍;
缓慢拉伸时间:将数据集的每个声音剪辑的时间拉伸到原来的0.7倍;
添加白噪声:在所述环境声音的数据集中添加白噪声。
在其中一个实施例中,所述数据预处理包括增加端点检测和去静音功能。
在其中一个实施例中,所述对环境声音进行特征提取,包括:
采用Log-MEL特征提取方法对环境声音进行特征提取。
在其中一个实施例中,采用Log-MEL特征提取方法对环境声音进行特征提取后,所述方法还包括:
得到梅尔频谱图和梅尔倒谱系数;
将所述梅尔频谱图和梅尔倒谱系数进行特征融合。
在其中一个实施例中,得到梅尔频谱图和梅尔倒谱系数后,所述方法还包括:
将所述梅尔频谱图和梅尔倒谱系数输入深度CNN网络进行模型训练。
在其中一个实施例中,在所述对语音训练数据进行数据增强前,所述方法还包括:
获取环境声音;
对所述环境声音进行滤波处理,过滤环境噪音。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海高凌信息科技股份有限公司,未经珠海高凌信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210403964.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:穿刺分离钳
- 下一篇:一种流量镜像方法、装置、设备和计算机存储介质