首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]音频识别模型的训练方法和乐器对象识别方法在审

申请号：	202111156360.7	申请日：	2021-09-30
公开（公告）号：	CN113921040A	公开（公告）日：	2022-01-11
发明（设计）人：	蔡梓丰;韩宝强;陈又新;肖京	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G10L25/51	分类号：	G10L25/51;G10L25/30;G10L25/18
代理公司：	北京英特普罗知识产权代理有限公司 11015	代理人：	饶文彬
地址：	518000 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	音频识别模型训练方法乐器对象
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种音频识别模型的训练方法，其特征在于，包括：

获取多个样本音频数据，每个样本音频数据携带有对应的样本乐器对象；

对所述多个样本音频数据进行梅尔预处理，以得到对应的多个样本梅尔频谱特征；

将所述多个样本梅尔频谱特征输入至预先构造的卷积神经网络识别模型中，以得到每个样本梅尔频谱特征对应的预测结果，所述预测结果包括多个预测概率值；

基于所述每个样本音频数据的所述预测结果对应的预测乐器对象与所述每个样本音频数据对应的样本乐器对象的差异确定训练目标；

按照优化所述训练目标的方向，调整所述卷积神经网络识别模型的模型参数并继续训练，直至满足训练停止条件时结束训练，得到所述音频识别模型。

2.根据权利要求1所述的音频识别模型的训练方法，其特征在于，所述对所述多个样本音频数据进行梅尔预处理，以得到对应的多个样本梅尔频谱特征包括：

构建提取参数，所述提取参数用于从所述多个样本音频数据中提取样本频谱特征；

基于所述提取参数从每个所述样本音频数据中，提取每个所述样本音频数据对应的频谱特征；

对每个样本频谱特征进行梅尔尺度变换，得到对应的变换梅尔频谱特征；

将每个变换梅尔频谱特征进行缩放处理，得到所述样本梅尔频谱特征。

3.根据权利要求1所述的音频识别模型的训练方法，其特征在于，所述预先构造卷积神经网络识别模型的步骤包括：

根据所述样本梅尔频谱特征以及与所述样本梅尔频谱特征对应的乐器，构造映射函数；

基于所述映射函数对卷积神经网络模型进行修改，以得到卷积神经网络识别模型。

4.根据权利要求1所述的音频识别模型的训练方法，其特征在于，基于所述每个样本音频数据的所述预测结果对应的预测乐器对象与所述每个样本音频数据对应的样本乐器对象的差异确定训练目标包括：

选取所述每个样本音频数据的所述预测结果中最大的预测概率值对应的预测乐器对象作为测试乐器对象；

判断所述每个样本音频数据的测试乐器对象是否为所述每个样本音频数据的样本乐器对象；

若不一致，则将所述训练目标确定为：所述每个样本音频数据的测试对象为所述每个样本音频数据的样本乐器对象。

5.根据权利要求4所述的音频识别模型的训练方法，其特征在于，按照优化所述训练目标的方向，调整所述卷积神经网络识别模型的模型参数并继续训练，直至满足训练停止条件时结束训练，得到所述音频识别模型包括：

计算所述测试对象对应的样本概率值与所述样本乐器对象对应的预测概率值之间的误差值；

基于所述误差值调整所述卷积神经网络识别模型的模型参数并继续训练，直至满足训练停止条件时结束训练，得到所述音频识别模型；其中，所述训练停止条件为所述误差值小于预设阈值。

6.一种基于音频识别模型的乐器对象识别方法，其特征在于，包括：

获取待识别音频数据；

基于提取参数从待识别音频数据中提取对应的目标频谱特征；

对每个目标频谱特征进行梅尔预处理，得到输入梅尔频谱特征；

将所述输入梅尔频谱特征输入至音频识别模型中，以输出所述待识别音频数据的目标概率值组；

从所述目标概率值组对应的乐器对象组中，确定所述待识别音频数据对应的目标乐器对象。

7.根据权利要求6所述的基于音频识别模型的乐器对象识别方法，其特征在于，所述对每个目标频谱特征进行梅尔预处理，得到输入梅尔频谱特征包括：

对每个目标频谱特征进行梅尔尺度变换，得到对应的目标梅尔频谱特征；

将所述目标梅尔频谱特征进行缩放处理，得到输入梅尔频谱特征。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于平安科技（深圳）有限公司，未经平安科技（深圳）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111156360.7/1.html，转载请声明来源钻瓜专利网。

上一篇：一种通话中信息保存方法、终端及存储介质
下一篇：基于version文件的软件版本管理方法、系统、电子设备及介质

同类专利

专利分类

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top