[发明专利]分类模型训练方法、音频分类方法、装置、介质及设备在审
申请号: | 202010255326.4 | 申请日: | 2020-04-02 |
公开(公告)号: | CN111460214A | 公开(公告)日: | 2020-07-28 |
发明(设计)人: | 王康;何怡;许凌 | 申请(专利权)人: | 北京字节跳动网络技术有限公司 |
主分类号: | G06F16/65 | 分类号: | G06F16/65;G06K9/62 |
代理公司: | 北京英创嘉友知识产权代理事务所(普通合伙) 11447 | 代理人: | 曹寒梅 |
地址: | 100041 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分类 模型 训练 方法 音频 装置 介质 设备 | ||
1.一种音频分类模型训练方法,其特征在于,所述方法包括:
获取初始音频分类模型,所述初始音频分类模型基于属于常用语种的多个第一音频训练得到;
获取属于非常用语种的多个第二音频,并确定每一所述第二音频的语言特征和所属语种;
根据所述第二音频所属语种的总数,对所述初始音频分类模型中的全连接层进行设置,以获得中间音频分类模型;
将所述第二音频的语言特征作为模型输入数据、并将所述第二音频所属语种作为模型输出数据,对所述中间音频分类模型进行训练,以获得目标音频分类模型。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第二音频所属语种的总数,对所述初始音频分类模型中的全连接层进行设置,以获得中间音频分类模型,包括:
对所述初始音频分类模型中全连接层所包含的类别进行设置,使所述全连接层所包含的类别的数量与所述第二音频所属语种的总数相同、且所述全连接层所包含的类别与所述第二音频所属语种一一对应。
3.根据权利要求1所述的方法,其特征在于,所述确定每一所述第二音频的语言特征,包括:
通过预训练的特征提取模型提取每一所述第二音频的语言特征,其中,所述特征提取模型是基于AudioSet数据集训练得到的。
4.一种音频分类方法,其特征在于,所述方法包括:
对待处理音频进行切分,以获得多个待处理音频片段;
分别将每一所述待处理音频片段输入至目标音频分类模型,以获得目标音频分类模型的输出结果,其中,所述目标音频分类模型是根据权利要求1-3中任一项所述的音频分类模型训练方法训练得到的,所述输出结果用于指示输入至所述目标音频分类模型的待处理音频片段对应于所述第二音频所属语种中各个语种的概率;
针对每一所述待处理音频片段,根据该待处理音频片段对应于所述第二音频所属语种中各个语种的概率,确定所述待处理音频所属语种。
5.根据权利要求4所述的方法,其特征在于,所述针对每一所述待处理音频片段,根据该待处理音频片段对应于所述第二音频所属语种中各个语种的概率,确定所述待处理音频所属语种,包括:
针对每一所述待处理音频片段,根据该待处理音频片段所对应的最大概率,将该最大概率对应的语种确定为该待处理音频片段所属语种;
根据每一所述待处理音频片段所属语种,确定所述待处理音频所属语种。
6.根据权利要求5所述的方法,其特征在于,所述根据每一所述待处理音频片段所属语种,确定所述待处理音频所属语种,包括:
对每一所述待处理音频片段所属语种进行统计,以确定数量最多的语种;
将所述数量最多的语种确定为所述待处理音频所属语种。
7.一种音频分类模型训练装置,其特征在于,所述装置包括:
第一获取模块,用于获取初始音频分类模型,所述初始音频分类模型基于属于常用语种的多个第一音频训练得到;
第二获取模块,用于获取属于非常用语种的多个第二音频,并确定每一所述第二音频的语言特征和所属语种;
设置模块,用于根据所述第二音频所属语种的总数,对所述初始音频分类模型中的全连接层进行设置,以获得中间音频分类模型;
模型训练模块,用于将所述第二音频的语言特征作为模型输入数据、并将所述第二音频所属语种作为模型输出数据,对所述中间音频分类模型进行训练,以获得目标音频分类模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字节跳动网络技术有限公司,未经北京字节跳动网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010255326.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:三维存储器及其制备方法
- 下一篇:一种双录系统