[发明专利]一种基于信号多特征统计的音频信号分类方法在审
申请号: | 201611048854.2 | 申请日: | 2016-11-18 |
公开(公告)号: | CN108074584A | 公开(公告)日: | 2018-05-25 |
发明(设计)人: | 林志斌;邱小军 | 申请(专利权)人: | 南京大学 |
主分类号: | G10L25/51 | 分类号: | G10L25/51;G10L25/21;G10L25/18;G10L25/78 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210093 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征统计 音频信号分类 分类 信号分类 音频信号 时间帧 分级 收敛 预处理 音频信号特征 音频编解码 传输领域 分类类型 分类特征 规则分类 历史状态 特征判断 统计特征 信号帧 时域 更新 统计 | ||
本发明公开了一种基于信号多特征统计的音频信号分类方法,涉及音频编解码与传输领域。本发明公开的音频信号分类方法,包括:对输入的音频信号进行预处理,在时域和MDCT域提取多级音频信号特征统计,对当前帧处于分类的收敛时间帧I内采用单个音频信号统计特征分类;对处于分类的收敛时间帧I之后则采用多特征统计特性分级规则的分类方法进行分类,分类特征采用信号多特征统计特征判断;当前帧经过多特征统计特性分级规则分类后,根据当前帧之前的信号帧分类类型历史状态更新当前帧信号分类类别。本发明使得简单实时的信号分类也具有较高的准确性。
一、技术领域
本发明涉及音频编解码与传输领域,尤其涉及一种基于信号多特征统计的音频信号分类方法。
二、背景技术
在音频信号进行编码、传输或其他处理前对信号进行分类,可以有效地提高编码和传输的效率,由于多媒体音频信号的传输是在基于实时传输的模式框架下,对音频信号的实时分类是一个重要的研究内容。
国内外对音频信号分类的研究大多集中在长时间的分类上,如1秒或10秒时长的低能量率分类和1秒或10秒时长的短时能量进行分类等。在分类器的设计上普遍采用基于统计的分类方法,如支持向量机的分类器,神经网络分类器等。由于处理时间比较长,这些方法在音频实时分类上实用性不高。
目前对音频分类的算法基本是在时域或频域中实现的,而现在流行的编码方式,如MP3,AAC等都利用MDCT变换处理,为了减少额外运算操作,直接提取MDCT域和时域上的特征进行分析,能有效地提高特征提取效率。配合适当的分类规则可以设计出快速音频信号实时分类的分类方法。
三、发明内容
1、发明目的:本发明的目的是提供一种基于信号多特征统计的音频信号分类方法,进行快速的实时分类,减少额外运算,提高音频信号实时分类的精确度,发挥音频信号分类对音频编码与音频传输重要作用。
2、技术方案:为实现上述发明目的,本发明公开一种基于信号多特征统计的音频信号分类方法,包括:
对输入的音频信号进行分帧及高通滤波处理后,进行当前帧静音检测,计算MDCT变换,在时域和MDCT域提取音频特征,当所述当前帧处于分类的收敛时间帧I内采用单个音频特征分类,若所述当前帧处于分类的收敛时间帧I之后则采用多特征统计特性分级规则的分类方法进行分类,且所述当前帧经过多特征统计特性分级规则分类后,根据所述当前帧之前的信号帧分类类型历史状态更新所述当前帧分类类别。
进一步地,上述方法中,采用短时过零率进行当前帧静音检测,所述当前帧短时过零率大于所述第一设定值,设置当前帧为非静音帧。
通过对处理后的每帧音频信号进行MDCT变换,在时域与MDCT域中提取一系列的音频特征,音频特征包括短时过零率、MDCT频谱谐波结构稳定性、MDCT频谱子带能量变化统计值、MDCT频谱质心变化值、MDCT频谱子带能量和MDCT频谱系数前四个参数绝对值之和。
进一步地所述方法中,当所述当前帧处于分类的收敛时间帧I内时采用单一特征分类,单一特征采用MDCT频谱子带能量,所述当前帧单一特征第一能量子带大于所述第二设定值,设置当前帧为语音帧。
所述当前帧处于分类的收敛时间帧I后时采用多特征统计特性分级规则进行多级特征分类,多级特征采用短时过零率、MDCT频谱谐波结构稳定性、MDCT频谱子带能量变化统计值、MDCT频谱质心变化值、MDCT频谱子带能量和MDCT频谱系数前四个参数绝对值之和。
所述当前帧进行单特征统计特性分类,单特征统计特性分类特征采用MDCT频谱子带能量的第一子带进行判别,大于所述第二设定值,设置当前帧为准语音帧,反之设置所述当前帧为准音乐帧。
进一步地,所述方法中,对单特征统计特性分类后的信号帧按照多特征结合的方法进行精细分类,精细分类每级判断的音频特征分别与相应设定值比较判断信号类型,分级分类过程不改变分级特征判断顺序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611048854.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:声音信号处理系统
- 下一篇:一种基于声源特征的语音异常检测方法