[发明专利]音频场景分类模型生成方法、装置、设备以及存储介质有效

申请号：	202010479961.0	申请日：	2020-05-29
公开（公告）号：	CN111653290B	公开（公告）日：	2023-05-02
发明（设计）人：	夏晶;李曙鹏;高晨昊;吕海军;徐彬彬;施恩;谢永康	申请（专利权）人：	北京百度网讯科技有限公司
主分类号：	G10L25/51	分类号：	G10L25/51;G06N3/08;G06N3/0464;G06F18/24
代理公司：	北京银龙知识产权代理有限公司 11243	代理人：	曹娜
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	音频场景分类模型生成方法装置设备以及存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了音频场景分类模型生成方法、装置、设备以及存储介质，涉及深度学习技术领域。方法包括：基于多个音频样本生成多个频谱图集合；基于多个频谱图集合，生成多个样本数据集；基于多个样本数据集，对待训练的音频场景分类模型进行训练，得到训练后的音频场景分类模型；其中，基于多个频谱图集合中的第一频谱图集合，生成第一样本数据集的过程包括：对第一频谱图集合中的每两个相邻的频谱图进行拼接处理，得到多个新的频谱图；将得到的多个新的频谱图加入第一频谱图集合中，并将第一频谱图集合和第一音频场景标签作为第一样本数据集，第一音频场景标签为生成第一频谱图集合的音频样本对应的音频场景标签。本申请提高音频场景预测的准确率。

技术领域

本申请涉及深度学习领域，尤其涉及音频处理技术领域。

背景技术

音频场景分类指根据音频信号输入分辨信号源所处场景或活动类别,是目前音频信号处理领域的研究热点之一。随着智能移动硬件设备的普及，被广泛应用于野生户外、家庭室内、工业现场等环境监测中。随着深度学习的发展，音频场景分类准确率逐渐提升，但也对音频数量提出了较高的需求。

发明内容

本申请提供了一种用于音频场景分类模型生成方法、装置、设备以及存储介质。

根据本申请的第一方面，提供了一种音频场景分类模型生成方法，包括：

基于多个音频样本生成多个频谱图集合；

基于多个频谱图集合，生成多个样本数据集；

基于多个样本数据集，对待训练的音频场景分类模型进行训练，得到训练后的音频场景分类模型；

其中，基于多个频谱图集合中的第一频谱图集合，生成第一样本数据集的过程，包括：

对第一频谱图集合中的每两个相邻的频谱图进行拼接处理，得到多个新的频谱图，其中拼接处理包括将第一频谱图中的第一区域和第二频谱图的第二区域拼接为一个新的频谱图；