[发明专利]音频场景分类模型生成方法、装置、设备以及存储介质有效

申请号：	202010479961.0	申请日：	2020-05-29
公开（公告）号：	CN111653290B	公开（公告）日：	2023-05-02
发明（设计）人：	夏晶;李曙鹏;高晨昊;吕海军;徐彬彬;施恩;谢永康	申请（专利权）人：	北京百度网讯科技有限公司
主分类号：	G10L25/51	分类号：	G10L25/51;G06N3/08;G06N3/0464;G06F18/24
代理公司：	北京银龙知识产权代理有限公司 11243	代理人：	曹娜
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	音频场景分类模型生成方法装置设备以及存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种音频场景分类模型生成方法，包括：

基于多个音频样本生成多个频谱图集合；

基于所述多个频谱图集合，生成多个样本数据集；

基于所述多个样本数据集，对待训练的音频场景分类模型进行训练，得到训练后的音频场景分类模型；

其中，基于所述多个频谱图集合中的第一频谱图集合，生成第一样本数据集的过程，包括：对所述第一频谱图集合中的每两个相邻的频谱图进行拼接处理，得到多个新的频谱图，其中所述拼接处理包括将第一频谱图中的第一区域和第二频谱图的第二区域拼接为一个新的频谱图；将得到的多个新的频谱图加入所述第一频谱图集合中，并将所述第一频谱图集合和第一音频场景标签作为第一样本数据集，所述第一音频场景标签为生成所述第一频谱图集合的音频样本对应的音频场景标签。

2.根据权利要求1所述的方法，还包括：

根据第一增强概率，对所述第一频谱图集合中的频谱图进行随机增强；

其中，所述第一增强概率是根据所述多个样本数据集中的第一类样本数据集的频谱图总帧数在全部样本数据集的频谱图总帧数中的第一占比确定的，所述第一增强概率与所述第一占比呈负相关关系，其中，具有与所述第一音频场景标签相同的音频场景标签的样本数据集属于所述第一类样本数据集。

3.根据权利要求1所述的方法，还包括：

以帧为单位对所述第一频谱图集合中的频谱图进行随机排序。

4.根据权利要求1所述的方法，其中，

所述第一频谱图和所述第二频谱图的横坐标i的取值范围均为[0，i₂)；

所述第一区域为所述第一频谱图中横坐标i∈[i₁，i₂)的区域；

所述第二区域为所述第二频谱图中横坐标i∈[0，i₁)的区域。

5.根据权利要求1所述的方法，其中，

所述待训练的音频场景分类模型包括特征提取器；其中，

所述特征提取器包括VGGish模型中的依次连接的四组结构，所述四组结构中的每组结构包括卷积层和池化层；