[发明专利]一种基于瓶颈特征的复杂音频分割聚类方法在审
申请号: | 201710101550.6 | 申请日: | 2017-02-24 |
公开(公告)号: | CN106952644A | 公开(公告)日: | 2017-07-14 |
发明(设计)人: | 李艳雄;王琴;李先苦;张雪;张聿晗 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G10L15/04 | 分类号: | G10L15/04;G10L15/26;G10L25/24;G10L25/30;G10L25/51;G06F17/30 |
代理公司: | 广州市华学知识产权代理有限公司44245 | 代理人: | 李斌 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 瓶颈 特征 复杂 音频 分割 方法 | ||
技术领域
本发明涉及音频信号处理与模式识别技术,特别涉及一种基于瓶颈特征的复杂音频分割聚类方法。
背景技术
随着多媒体采集设备、互联网及云存储平台的发展与普及,海量复杂音频内容分析与检索的需求日益迫切。复杂音频分割、聚类作为一种无监督的方法,是音频内容分析的重要手段之一。虽然可以采用人工标注的方法找出音频流中的各音频类型,但人工标注成本高、主观性强、效率低,而有监督的音频分类方法需要预先知道音频流中的音频类型、提前训练特定类型的分类器。因此无监督的复杂音频分割、聚类方法应用范围更广,更适合海量复杂音频数据的内容分析。
传统的复杂音频分割聚类方法采用的特征大多来源于语音识别领域,如梅尔频率倒谱系数,感知线性预测系数等。由于复杂音频中的各类音频事件来源各异,没有语音那样的特定结构单元(音素或音节),在语音识别中能有效刻画语音单元差异的传统音频特征并不一定能有效刻画复杂音频类型之间的特性差异。因此,提取有效刻画复杂音频类型差异的特征是提升复杂音频分割与聚类性能的关键。
发明内容
本发明的目的在于克服现有技术的不足和缺点,提供一种基于瓶颈特征的复杂音频分割聚类方法:首先训练一个带瓶颈层的深度神经网络;接着,提取复杂音频流的音频特征并输入深度神经网络,从深度神经网络的瓶颈层提取瓶颈特征;以瓶颈特征作为输入,采用基于贝叶斯信息准则的音频分割方法对复杂音频流进行分割,使得每个音频段只包含一种音频类型,相邻音频段的音频类型不同;最后,采用谱聚类算法对分割后的音频段进行聚类,得到复杂音频中的音频类型个数,并将相同音频类型的音频段合并在一起。
本发明的目的通过以下技术方案实现:一种基于瓶颈特征的复杂音频分割聚类方法,其特征在于,包括如下步骤:
S1、带瓶颈层的深度神经网络构造:读入训练数据并提取梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients,MFCC)特征,再通过无监督预训练和有监督精确调整两个步骤构造一个带瓶颈层的深度神经网络(Deep Neural Network,DNN)特征提取器;
S2、端点检测:读入复杂音频流,通过基于门限判决的静音检测方法找出音频流中所有的静音段和非静音信号段,并将各个非静音信号段拼接成一个长信号段;
S3、瓶颈特征提取:提取上述长信号段的MFCC特征并输入DNN特征提取器,从DNN特征提取器的瓶颈层提取瓶颈特征;
S4、音频分割:采用基于贝叶斯信息准则(Bayes Information Criterion,BIC)的方法检测长信号段中的音频类型改变点,根据这些改变点把长信号段分割成若干个音频段,使得每个音频段只包含一种音频类型且相邻音频段的音频类型不同;
S5、音频聚类:采用谱聚类算法对各音频段进行聚类,得到音频类型个数,并将相同音频类型的音频段合并在一起。
优选的,步骤S1中带瓶颈层的深度神经网络构造具体包括以下步骤:
S1.1、读入训练数据并提取MFCC特征,具体步骤如下:
S1.1.1、预加重:设置数字滤波器的传递函数为H(z)=1-αz-1,其中α为一个系数且取值为:0.9≤α≤1,读入的音频流通过该数字滤波器后实现预加重;
S1.1.2、分帧:设置音频帧的帧长为25毫秒、帧移为10毫秒,帧长和帧移所对应的采样点个数分别为N=0.025×fs和S=0.01×fs,其中fs为音频采样频率,将读入的音频流切分成音频帧xt'(n),1≤t≤T,0≤n≤N-1,其中T和N分别表示帧数和每帧的采样点数;
S1.1.3、窗函数ω(n)为汉明窗:
将每帧音频信号xt'(n)与汉明窗ω(n)相乘得到加窗后的音频信号xt(n):
xt(n)=ω(n)×xt'(n) n=0,1,...,N-1;t=1,2,...,T
S1.1.4、提取MFCC特征:
S1.1.4.1、对第t帧音频信号xt(n)做离散傅立叶变换(Discrete Fourier Transformation,DFT)得到线性频谱Xt(k):
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710101550.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:木塑装潢板预切割装置
- 下一篇:可用于异形石材加工的桥式切石机