[发明专利]音频场景分类模型生成方法、装置、设备以及存储介质有效
申请号: | 202010479961.0 | 申请日: | 2020-05-29 |
公开(公告)号: | CN111653290B | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 夏晶;李曙鹏;高晨昊;吕海军;徐彬彬;施恩;谢永康 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G10L25/51 | 分类号: | G10L25/51;G06N3/08;G06N3/0464;G06F18/24 |
代理公司: | 北京银龙知识产权代理有限公司 11243 | 代理人: | 曹娜 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 场景 分类 模型 生成 方法 装置 设备 以及 存储 介质 | ||
1.一种音频场景分类模型生成方法,包括:
基于多个音频样本生成多个频谱图集合;
基于所述多个频谱图集合,生成多个样本数据集;
基于所述多个样本数据集,对待训练的音频场景分类模型进行训练,得到训练后的音频场景分类模型;
其中,基于所述多个频谱图集合中的第一频谱图集合,生成第一样本数据集的过程,包括:对所述第一频谱图集合中的每两个相邻的频谱图进行拼接处理,得到多个新的频谱图,其中所述拼接处理包括将第一频谱图中的第一区域和第二频谱图的第二区域拼接为一个新的频谱图;将得到的多个新的频谱图加入所述第一频谱图集合中,并将所述第一频谱图集合和第一音频场景标签作为第一样本数据集,所述第一音频场景标签为生成所述第一频谱图集合的音频样本对应的音频场景标签。
2.根据权利要求1所述的方法,还包括:
根据第一增强概率,对所述第一频谱图集合中的频谱图进行随机增强;
其中,所述第一增强概率是根据所述多个样本数据集中的第一类样本数据集的频谱图总帧数在全部样本数据集的频谱图总帧数中的第一占比确定的,所述第一增强概率与所述第一占比呈负相关关系,其中,具有与所述第一音频场景标签相同的音频场景标签的样本数据集属于所述第一类样本数据集。
3.根据权利要求1所述的方法,还包括:
以帧为单位对所述第一频谱图集合中的频谱图进行随机排序。
4.根据权利要求1所述的方法,其中,
所述第一频谱图和所述第二频谱图的横坐标i的取值范围均为[0,i2);
所述第一区域为所述第一频谱图中横坐标i∈[i1,i2)的区域;
所述第二区域为所述第二频谱图中横坐标i∈[0,i1)的区域。
5.根据权利要求1所述的方法,其中,
所述待训练的音频场景分类模型包括特征提取器;其中,
所述特征提取器包括VGGish模型中的依次连接的四组结构,所述四组结构中的每组结构包括卷积层和池化层;
所述特征提取器还包括全局平均池化层,所述全局平均池化层与所述四组结构中的最后一组结构的输出端连接。
6.根据权利要求5所述的方法,其中,
所述待训练的音频场景分类模型还包括分类器,其中,
所述分类器与所述全局平均池化层连接,且所述分类器包括两层全连接层,每层所述全连接层包括1024个神经元。
7.根据权利要求6所述的方法,其中,
所述四组结构包括的卷积层为卷积层C1、卷积层C2和卷积层C3和卷积层C4;
在对所述待训练的音频场景分类模型进行训练的过程中,如果所述多个样本数据中各类音频场景标签对应的音频样本的数量的平均值小于或等于预设阈值,则冻结卷积层C1、卷积层C2和卷积层C3的参数,更新卷积层C4和分类器的参数;
和/或,
在对所述待训练的音频场景分类模型进行训练的过程中,如果所述多个样本数据中各类音频场景标签对应的音频样本的数量的平均值大于预设阈值,则对所述特征提取器和所述分类器的所有参数进行更新。
8.一种音频场景分类方法,包括:
基于目标音频生成多个目标频谱图;
将所述多个目标频谱图输入音频场景分类模型,得到所述多个目标频谱图的音频场景分类结果;
根据所述多个目标频谱图的场景分类结果,确定所述目标音频所属的音频场景;
其中,所述音频场景分类模型为权利要求1-7中任一项所述的音频场景分类模型生成方法生成的音频场景分类模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010479961.0/1.html,转载请声明来源钻瓜专利网。