[发明专利]一种远场声音分类方法和装置在审

专利信息
申请号: 202010402018.X 申请日: 2020-05-13
公开(公告)号: CN111540346A 公开(公告)日: 2020-08-14
发明(设计)人: 关昊天;史昊;吕永杰;廖启波 申请(专利权)人: 慧言科技(天津)有限公司;深圳市康鸿泰科技有限公司
主分类号: G10L15/08 分类号: G10L15/08;G10L15/16;G10L15/06;G10L15/20
代理公司: 深圳市智胜联合知识产权代理有限公司 44368 代理人: 齐文剑
地址: 300450 天津市滨海新区华苑产业区*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 声音 分类 方法 装置
【说明书】:

发明实施例提供了一种远场声音分类方法,包括:利用人工智能模型的自学能力建立远场声音分类关系,其中,人工智能模型的自学能力建立的远场声音分类关系是基于数据增广和多尺度信息的卷积神经网络建立的远场声音分类关系;获取目标区域内的语音信号;基于语音信号的振幅信息对语音信号进行特征提取,得到语谱图;将语谱图输入到利用人工智能模型的自学能力建立的远场声音分类关系中,得到分类结果。将声音分类的音频数据和真实环境下的麦克风接受到的信号分布匹配,去除噪声和混响等干扰因素,使用数据增广的方式来进行声音分类,使得模型在训练数据能够更贴合真实环境的数据分布,从而能够得到更好的鲁棒性,提高声音分类任务的准确率。

技术领域

本发明涉及声音分类技术领域,特别是涉及一种远场声音分类方法和一 种远场声音分类装置。

背景技术

随着互联网和信息技术的迅速发展,人们的生活水平日益提高,对生活 的质量及工作要求也越来越高,音频作为人们日常生活及商业活动过程中的 一种媒介,深深影响着日常生活的行为。音频识别在如今的模式识别领域中 是个前沿的研究课题,作为音频识别的一个主要研究分支,环境声音分类 (Environmental Sound Classification,ESC)近期受到了许多专家学者的关 注,成为了热门话题。ESC是机器分析其声学环境的最重要技术之一,广泛 应用于监视、智能家居、场景分析和机器视听等领域。例如监管系统需要检 测周围异常的声音来自动报告紧急情况以启动应急方案,机器人需要对周围 的环境声音进行分类和识别来做出判断等。与语音和音乐不同,环境声音的 音频具有更多的多样性,拥有广泛的频率范围。近年来随着医疗保健、安全 监控、预测生态环境变化等应用的增加,环境声音的分类识别越来越重要, 环境声音的特征提取和分类准确率决定了系统的性能,这将决定在应用领域 上的系统性能是否能更好的满足人类活动的需求。

传统的对环境声音分类的方法有基于机器学习以及浅层卷积神经网络 结构模型进行训练预测分类,通过对声音文件进行提取属性作为输入数据进 行训练,最终得出分类预测模型进行预测。传统的基于机器学习的方法在处 理此问题上表现出的效果往往不尽如意,得出的模型无法有效进行分类预 测;而基于浅层卷积网络的模型结构往往训练出的模型准度依然有待提高。 浅层卷积神经网络模型结构单一,无法确定是否达到最优结构,并且该模型 结构单一,鲁棒性不足,多次的训练差别比较大。总之,传统的对环境声音 分类的方法得出的分类结果准确率较低。在远场声音分类中,目标声音经常 会被背景噪声和混响干扰,从而降低了声音分类任务的准确率,导致性能的 急剧下降。

发明内容

鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至 少部分地解决上述问题的一种远场声音分类方法和相应的一种远场声音分 类装置。

为了解决上述问题,本发明实施例公开了一种远场声音分类方法,包括:

利用人工智能模型的自学能力建立远场声音分类关系,其中,所述人工 智能模型的自学能力建立的远场声音分类关系是基于数据增广和多尺度信 息的卷积神经网络建立的远场声音分类关系;

获取目标区域内的语音信号;

基于所述语音信号的振幅信息对所述语音信号进行特征提取,得到语谱 图;

将所述语谱图输入到所述利用人工智能模型的自学能力建立的远场声 音分类关系中,得到分类结果。

进一步地,所述基于所述语音信号的振幅信息对所述语音信号进行特征 提取,得到语谱图的步骤,包括:

将所述语音信号进行分帧、加窗及傅里叶变化,得到对应的语谱图。

进一步地,所述将所述语音信号进行分帧、加窗及傅里叶变化,得到对 应的语谱图的步骤,包括:

对所述语音信号进行分帧和加窗处理,得到预处理信号;

对所述预处理信号进行短时傅里叶变换,得到语音特征;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于慧言科技(天津)有限公司;深圳市康鸿泰科技有限公司,未经慧言科技(天津)有限公司;深圳市康鸿泰科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010402018.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top