[发明专利]一种音频分类方法及系统及设备及存储介质在审
申请号: | 202111005326.X | 申请日: | 2021-08-30 |
公开(公告)号: | CN113742515A | 公开(公告)日: | 2021-12-03 |
发明(设计)人: | 陈剑超;肖龙源;李稀敏;叶志坚 | 申请(专利权)人: | 厦门快商通科技股份有限公司 |
主分类号: | G06F16/65 | 分类号: | G06F16/65;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 厦门仕诚联合知识产权代理事务所(普通合伙) 35227 | 代理人: | 蔡稷元 |
地址: | 361009 福建省厦门市软件*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 音频 分类 方法 系统 设备 存储 介质 | ||
1.一种音频分类方法,其特征在于,通过如下步骤实现对混合类音频的处理分类:
预处理,对输入的音频信号进行预加重、分帧和加窗实现对音频信号的预处理;
音频帧特征提取,通过对输入的音频信号依次进行基音周期检测、谐波噪声比检测、提取语音和音乐和谐度的一阶差分、和谐度分段以及和谐度分段特征提取等步骤实现音频帧特征的提取;
建模,建立一个基于CNN-LSTM的分类模型并将提取的音频帧特征样本数据输入到模型中进行训练,直到模型的输出误差达到预设要求;
分类处理,将待处理的音频信息的音频帧特征输入到建立的模型中进行处理分类并输出分类结果。
2.根据权利要求1所述的一种音频分类方法,其特征在于,所述预加重的具体步骤公式为:其中,θx表示预加重系数,y(n)表示预加重处理后得到信号,x(n)表示音频信号第n个点的幅值。
3.根据权利要求1所述的一种音频分类方法,其特征在于,所述分帧过程选择用20ms作为稳定时长,选择10ms作为帧叠。
4.根据权利要求1所述的一种音频分类方法,其特征在于,所述基音周期检测过程通过时域估计法、变换法或混合法中的一种实现基音周期检测。
5.根据权利要求1所述的一种音频分类方法,其特征在于,提取语音和音乐和谐度的一阶差分的过程包括如下步骤:
s01,计算每个频率和跨越一定步长的频率之间的相关性,通过如下公式实现:
s02,计算步骤S01中的离散函数中相邻两项之间的差,通过离散量之间的变化提取出语音和音乐和谐度的一阶差分。
6.根据权利要求1所述的一种音频分类方法,其特征在于,所述和谐度分段特征提取过程通过如下步骤实现:
a01,识别音乐节拍,通过获取音频的起始包络、计节奏和节拍识别等步骤实现对音乐节拍的识别;
a02,找到各节拍中最低点,计算每两个节拍最低点之间和谐度的方差和均值。
7.根据权利要求1所述的一种音频分类方法,其特征在于,所述建模包括如下具体步骤:
b01,使用CNN将音频特征汇聚到一个较小的尺寸,获取音频数据中多个种类的局部特征;
b02,添加一层LSTM,使模型能够结合长段音频中,各个时刻的高层特征,得到音频中不同时刻的和谐度等特征的变化情况;
b03,设置两个全链接层和一个分类层,整合特征,将其映射到样本标记空间,再进行分类;
b04,对分类的结果与人工分类的结果进行比对得出误差。
8.一种音频分类系统,其特征在于,包括音频信号输入模块,用于输入用于分类的音频信号;特征提取模块,用于对输入的音频信号进行音频特征的提取;分类处理模块,用于根据提取的音频特征数据对音频信号进行分类;输出模块,用于将音频分类的结果进行输出。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门快商通科技股份有限公司,未经厦门快商通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111005326.X/1.html,转载请声明来源钻瓜专利网。