[发明专利]一种基于信号多特征统计的音频信号分类方法在审

申请号：	201611048854.2	申请日：	2016-11-18
公开（公告）号：	CN108074584A	公开（公告）日：	2018-05-25
发明（设计）人：	林志斌;邱小军	申请（专利权）人：	南京大学
主分类号：	G10L25/51	分类号：	G10L25/51;G10L25/21;G10L25/18;G10L25/78
代理公司：	暂无信息	代理人：	暂无信息
地址：	210093 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	特征统计音频信号分类分类信号分类音频信号时间帧分级收敛预处理音频信号特征音频编解码传输领域分类类型分类特征规则分类历史状态特征判断统计特征信号帧时域更新统计
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于信号多特征统计的音频信号分类方法，涉及音频编解码与传输领域。本发明公开的音频信号分类方法，包括：对输入的音频信号进行预处理，在时域和MDCT域提取多级音频信号特征统计，对当前帧处于分类的收敛时间帧I内采用单个音频信号统计特征分类；对处于分类的收敛时间帧I之后则采用多特征统计特性分级规则的分类方法进行分类，分类特征采用信号多特征统计特征判断；当前帧经过多特征统计特性分级规则分类后，根据当前帧之前的信号帧分类类型历史状态更新当前帧信号分类类别。本发明使得简单实时的信号分类也具有较高的准确性。

一、技术领域

本发明涉及音频编解码与传输领域，尤其涉及一种基于信号多特征统计的音频信号分类方法。

二、背景技术

在音频信号进行编码、传输或其他处理前对信号进行分类，可以有效地提高编码和传输的效率，由于多媒体音频信号的传输是在基于实时传输的模式框架下，对音频信号的实时分类是一个重要的研究内容。

国内外对音频信号分类的研究大多集中在长时间的分类上，如1秒或10秒时长的低能量率分类和1秒或10秒时长的短时能量进行分类等。在分类器的设计上普遍采用基于统计的分类方法，如支持向量机的分类器，神经网络分类器等。由于处理时间比较长，这些方法在音频实时分类上实用性不高。

目前对音频分类的算法基本是在时域或频域中实现的，而现在流行的编码方式，如MP3，AAC等都利用MDCT变换处理，为了减少额外运算操作，直接提取MDCT域和时域上的特征进行分析，能有效地提高特征提取效率。配合适当的分类规则可以设计出快速音频信号实时分类的分类方法。

三、发明内容

1、发明目的：本发明的目的是提供一种基于信号多特征统计的音频信号分类方法，进行快速的实时分类，减少额外运算，提高音频信号实时分类的精确度，发挥音频信号分类对音频编码与音频传输重要作用。

2、技术方案：为实现上述发明目的，本发明公开一种基于信号多特征统计的音频信号分类方法，包括：

对输入的音频信号进行分帧及高通滤波处理后，进行当前帧静音检测，计算MDCT变换，在时域和MDCT域提取音频特征，当所述当前帧处于分类的收敛时间帧I内采用单个音频特征分类，若所述当前帧处于分类的收敛时间帧I之后则采用多特征统计特性分级规则的分类方法进行分类，且所述当前帧经过多特征统计特性分级规则分类后，根据所述当前帧之前的信号帧分类类型历史状态更新所述当前帧分类类别。

进一步地，上述方法中，采用短时过零率进行当前帧静音检测，所述当前帧短时过零率大于所述第一设定值，设置当前帧为非静音帧。

通过对处理后的每帧音频信号进行MDCT变换，在时域与MDCT域中提取一系列的音频特征，音频特征包括短时过零率、MDCT频谱谐波结构稳定性、MDCT频谱子带能量变化统计值、MDCT频谱质心变化值、MDCT频谱子带能量和MDCT频谱系数前四个参数绝对值之和。

进一步地所述方法中，当所述当前帧处于分类的收敛时间帧I内时采用单一特征分类，单一特征采用MDCT频谱子带能量，所述当前帧单一特征第一能量子带大于所述第二设定值，设置当前帧为语音帧。

所述当前帧处于分类的收敛时间帧I后时采用多特征统计特性分级规则进行多级特征分类，多级特征采用短时过零率、MDCT频谱谐波结构稳定性、MDCT频谱子带能量变化统计值、MDCT频谱质心变化值、MDCT频谱子带能量和MDCT频谱系数前四个参数绝对值之和。

所述当前帧进行单特征统计特性分类，单特征统计特性分类特征采用MDCT频谱子带能量的第一子带进行判别，大于所述第二设定值，设置当前帧为准语音帧，反之设置所述当前帧为准音乐帧。

进一步地，所述方法中，对单特征统计特性分类后的信号帧按照多特征结合的方法进行精细分类，精细分类每级判断的音频特征分别与相应设定值比较判断信号类型，分级分类过程不改变分级特征判断顺序。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京大学，未经南京大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201611048854.2/2.html，转载请声明来源钻瓜专利网。

上一篇：声音信号处理系统
下一篇：一种基于声源特征的语音异常检测方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于信号多特征统计的音频信号分类方法在审

专利文献下载