[发明专利]一种音频事件识别模型的训练方法、装置及其设备有效
申请号: | 202110847978.1 | 申请日: | 2021-07-27 |
公开(公告)号: | CN113299314B | 公开(公告)日: | 2021-11-02 |
发明(设计)人: | 龚亚光 | 申请(专利权)人: | 北京世纪好未来教育科技有限公司 |
主分类号: | G10L25/30 | 分类号: | G10L25/30;G06N3/04 |
代理公司: | 北京合智同创知识产权代理有限公司 11545 | 代理人: | 李杰 |
地址: | 100086 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 音频 事件 识别 模型 训练 方法 装置 及其 设备 | ||
1.一种音频事件识别模型的训练方法,包括:
获取训练样本的集合,其中,所述训练样本的集合由包含真实弱标签的弱标签音频数据集合和包含真实强标签的强标签音频数据集合组成,所述真实弱标签用于表征弱标签音频数据中所包含的事件类型,所述真实强标签用于表征在强标签音频数据中的每一帧所包含的事件类型,所述弱标签音频数据包含所述真实弱标签,所述强标签音频数据包含所述真实强标签,所述弱标签音频数据集合包含至少一个所述弱标签音频数据,所述强标签音频数据集合包含至少一个所述强标签音频数据;
采用待训练模型确定所述训练样本的预测强标签;
根据训练样本的预测强标签确定所述训练样本的预测弱标签;
根据所述训练样本的预测强标签和真实强标签确定强标签损失值,以及,根据所述训练样本的预测弱标签和真实弱标签确定弱标签损失值;
根据所述强标签损失值和所述弱标签损失值的和确定训练损失值,根据所述训练损失值对所述待训练模型进行训练,生成目标模型。
2.如权利要求1所述的方法,其中,还包括:
获取无标签的音频数据;
采用所述目标模型预测生成所述无标签的音频数据的预测弱标签;
根据所述预测弱标签确定所述无标签的音频数据的伪标签,生成包含伪标签的伪标签音频数据集合;
将所述伪标签音频数据集合合并至所述弱标签音频数据集合中,生成新的弱标签音频数据集合。
3.如权利要求2所述的方法,其中,根据所述预测弱标签确定所述无标签的音频数据的伪标签,包括:
获取所述预测弱标签所对应的事件类型,其中,所述预测弱标签中通过概率值表征对应的事件类型的可能性;
若对应的事件类型的概率超过预设概率阈值,在所述预测弱标签中将所述对应的事件类型的概率值修订为表征事件类型存在的值;
将修订后的预测弱标签确定为所述无标签的音频数据的伪标签。
4.如权利要求1所述的方法,其中,根据所述强标签损失值和所述弱标签损失值的和确定训练损失值,包括:
根据所述弱标签音频数据集合或者所述强标签音频数据集合的数量分别确定强标签损失值的第一权重和所述弱标签损失值的第二权重;
根据所述第一权重和所述第二权重对所述强标签损失值和所述弱标签损失值进行加权求和确定训练损失值。
5.如权利要求1所述的方法,其中,根据训练样本的预测强标签确定所述训练样本的预测弱标签,包括:
获取所述训练样本的特征编码;
对所述特征编码通过线性网络进行线性化,生成对应于预测强标签的标签权重序列;
将标签权重序列和对应的每一帧预测强标签进行点乘相加,生成所述练样本的预测弱标签;
相应的,根据所述训练损失值对所述待训练模型进行训练,包括:根据所述训练损失值对所述线性网络中的参数进行训练。
6.如权利要求1所述的方法,其中,所述弱标签音频数据集合通过如下方式预先生成:
获取与弱标签音频数据的长度相同的噪声音频数据;
将所述噪声音频数据叠加至所述弱标签音频数据,生成包含噪声的弱标签音频数据集合。
7.如权利要求6所述的方法,其中,所述强标签音频数据集合通过如下方式预先生成:
获取与弱标签音频数据的长度相同的噪声音频数据,以及,获取已经确定事件类型的真实音频数据,其中,所述真实音频数据的长度不超过所述噪声音频数据的长度;
叠加所述真实音频数据和所述噪声音频数据生成包含噪声的真实音频数据,并确定所述真实音频数据和所述噪声音频数据中的叠加时间点;
根据所述叠加时间点和所述事件类型确定包含噪声的真实音频数据的真实强标签,生成强标签音频数据集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京世纪好未来教育科技有限公司,未经北京世纪好未来教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110847978.1/1.html,转载请声明来源钻瓜专利网。