[发明专利]音频分类模型的训练方法、音频分类方法、装置及设备在审
申请号: | 202010173624.9 | 申请日: | 2020-03-13 |
公开(公告)号: | CN111369982A | 公开(公告)日: | 2020-07-03 |
发明(设计)人: | 邓菁;王秋明 | 申请(专利权)人: | 北京远鉴信息技术有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/08;G10L21/0272;G10L25/51;G10L25/81 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 安卫静 |
地址: | 100000 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 分类 模型 训练 方法 装置 设备 | ||
本申请提供一种音频分类模型的训练方法、音频分类方法、装置及设备,属于音频处理技术领域。音频分类模型的训练方法包括:获取音频样本,音频样本包括:语音音频样本、音乐音频样本;对各音频样本进行分帧,并提取帧特征;采用预设窗函数,提取各音频样本中每帧的窗特征,并根据帧特征获取组合特征,其中,组合特征标记语音标签或音乐标签;采用组合特征和预设神经网络,训练获取音频分类模型。本申请可以将复杂程度较高的音乐音频和语音音频进行分类,进而提高分类结果的准确性。
技术领域
本申请涉及音频处理技术领域,具体而言,涉及一种音频分类模型的训练方法、音频分类方法、装置及设备。
背景技术
音乐和语音是音频中重要的两类数据,而在音频的现实应用中,音乐和语音很多时候是混在一起的,即有的时间段是音乐,有的时间段是语音,有的时候两者混叠在一起。
为了将音乐和语音区分开来,相关技术人员通常是基于相关性的后验决策方法对贝叶斯最大后验分类器的结果进行了处理来实现语音和音乐的分类。或者,采用的盲分离技术,将混在一起的背景音乐与人声分离开来,分别采用不同的技术进行后处理。
然而,上述现有技术主要是根据统计得到的音频数据的数据特征和专家的经验来进行分类,分类的准确性不高。
发明内容
本申请的目的在于提供一种音频分类模型的训练方法、音频分类方法、装置及设备,可以提高音频分类结果的准确性。
本申请的实施例是这样实现的:
本申请实施例的一方面,提供一种音频分类模型的训练方法,该方法包括:
获取音频样本,音频样本包括:语音音频样本、音乐音频样本;
对各音频样本进行分帧,并提取帧特征;
采用预设窗函数,提取各音频样本中每帧的窗特征,并根据帧特征获取组合特征,其中,组合特征标记语音标签或音乐标签;
采用组合特征和预设神经网络,训练获取音频分类模型。
可选地,采用组合特征和预设神经网络,训练获取音频分类模型,包括:
将组合特征代入预设神经网络进行前向运算,并根据损失函数获取每次迭代的梯度值;
根据梯度值调整预设神经网络中的参数后,继续训练,直到满足收敛条件,获取音频分类模型。
可选地,采用预设窗函数,提取各音频样本中每帧的窗特征,并根据帧特征获取组合特征之后,还包括:
将组合特征划分为训练样本集和测试样本集。
可选地,采用组合特征和预设神经网络,训练获取音频分类模型,包括:
采用训练样本集和预设神经网络,训练获取音频分类模型。
可选地,采用组合特征和预设神经网络,训练获取音频分类模型之后,还包括:
将测试样本集代入音频分类模型,获取测试分类结果;
根据测试分类结果以及测试样本集中组合特征的标签,判断音频分类模型是否合格。
本申请实施例的另一方面,提供一种音频分类方法,该方法包括:
对待识别音频信号进行分帧,并提取各帧的帧特征;
采用预设窗函数,提取各帧的窗特征,并根据帧特征获取组合特征;
将组合特征代入音频分类模型,将待识别音频信号的音乐信号和语音信号分离,其中,音频分类模型采用音频样本的组合特征训练获取,音频样本包括:语音音频样本、音乐音频样本,音频样本的组合特征标记语音标签或音乐标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京远鉴信息技术有限公司,未经北京远鉴信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010173624.9/2.html,转载请声明来源钻瓜专利网。