[发明专利]一种基于瓶颈特征的复杂音频分割聚类方法在审
申请号: | 201710101550.6 | 申请日: | 2017-02-24 |
公开(公告)号: | CN106952644A | 公开(公告)日: | 2017-07-14 |
发明(设计)人: | 李艳雄;王琴;李先苦;张雪;张聿晗 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G10L15/04 | 分类号: | G10L15/04;G10L15/26;G10L25/24;G10L25/30;G10L25/51;G06F17/30 |
代理公司: | 广州市华学知识产权代理有限公司44245 | 代理人: | 李斌 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 瓶颈 特征 复杂 音频 分割 方法 | ||
1.一种基于瓶颈特征的复杂音频分割聚类方法,其特征在于,包括如下步骤:
S1、带瓶颈层的深度神经网络构造:读入训练数据并提取梅尔频率倒谱系数特征,再通过无监督预训练和有监督精确调整两个步骤构造一个带瓶颈层的深度神经网络特征提取器;
S2、端点检测:读入复杂音频流,通过基于门限判决的静音检测方法找出音频流中所有的静音段和非静音信号段,并将各个非静音信号段拼接成一个长信号段;
S3、瓶颈特征提取:提取S1步骤中的梅尔频率倒谱系数特征并输入深度神经网络特征提取器,从深度神经网络特征提取器的瓶颈层提取瓶颈特征;
S4、音频分割:采用基于贝叶斯信息准则的方法检测长信号段中的音频类型改变点,根据这些改变点把长信号段分割成若干个音频段,使得每个音频段只包含一种音频类型且相邻音频段的音频类型不同;
S5、音频聚类:采用谱聚类算法对各音频段进行聚类,得到音频类型个数,并将相同音频类型的音频段合并在一起。
2.根据权利要求1所述的一种基于瓶颈特征的复杂音频分割聚类方法,其特征在于,步骤S1中带瓶颈层的深度神经网络构造具体包括以下步骤:
S1.1、读入训练数据并提取梅尔频率倒谱系数特征,具体步骤如下:
S1.1.1、预加重:设置数字滤波器的传递函数为H(z)=1-αz-1,其中α为一个系数且取值为:0.9≤α≤1,读入的音频流通过该数字滤波器后实现预加重;
S1.1.2、分帧:设置音频帧的帧长为25毫秒、帧移为10毫秒,帧长和帧移所对应的采样点个数分别为N=0.025×fs和S=0.01×fs,其中fs为音频采样频率,将读入的音频流切分成音频帧x′t(n),1≤t≤T,0≤n≤N-1,其中T和N分别表示帧数和每帧的采样点数;
S1.1.3、窗函数ω(n)为汉明窗:
将每帧音频信号x′t(n)与汉明窗ω(n)相乘得到加窗后的音频信号xt(n):
xt(n)=ω(n)×x′t(n) n=0,1,...,N-1;t=1,2,...,T,
S1.1.4、提取梅尔频率倒谱系数特征:
S1.1.4.1、对第t帧音频信号xt(n)做离散傅立叶变换得到线性频谱Xt(k):
S1.1.4.2、将上述线性频谱Xt(k)通过梅尔频率滤波器组得到梅尔频谱,再进行对数运算得到对数频谱St(m),其中梅尔频率滤波器组为若干个带通滤波器Hm(k),0≤m<M,M为滤波器的个数,每个滤波器具有三角形滤波特性,其中心频率为f(m),当m值较小时相邻f(m)的间隔较小,随着m的增加相邻f(m)的间隔逐渐变大,每个带通滤波器的传递函数为:
其中,0≤m<M,f(m)定义如下:
其中,fl、fh为滤波器的最低频率和最高频率,B-1为B的逆函数:
B-1(b)=700(eb/1125-1),
因此由线性频谱Xt(k)到对数频谱St(m)的变换为:
S1.1.4.3、将上述对数频谱St(m)经过离散余弦变换变换到倒谱域,得到第t帧音频信号的梅尔频率倒谱系数特征,即Ct(p):
S1.1.4.4、对每帧音频信号重复步骤S1.1.4.1-S1.1.4.3,得到所有音频帧的梅尔频率倒谱系数特征,将它们按帧的顺序组合成一个梅尔频率倒谱系数特征矩阵;
S1.2、预训练:采用逐层堆叠受限玻尔兹曼机的方法构造一个深度置信网,得到预训练的网络参数;
受限玻尔兹曼机采用基于能量的通用分布模型去表示任意概率分布,其能量函数定义为:
其中v,h分别代表可视层单元和隐含层单元的状态矢量,wij表示可视层第i个节点与隐含层第j个节点的连接权重,vi和ai分别表示可视层的第i个节点的状态和偏移量,hj和bj分别表示隐含层的第j个节点的状态和偏移量,vis和hid分别表示可视层和隐含层的节点集合;当所有参数都确定时,可以得到受限玻尔兹曼机能量函数关于v和h的联合概率分布:
由联合分布得到边缘概率分布:
条件概率为:
高斯-伯努利受限玻尔兹曼机的条件概率分布可以表示为:
其中表示是均值为方差为V的高斯分布,表示输入为的Sigmoid函数,Sigmoid函数σ(x)的表达式为σ(x)=1/[1+exp(-x)];
伯努利-伯努利受限玻尔兹曼机的条件概率分布表示为:
在给定训练集其中ns为训练样本数目,训练一个受限玻尔兹曼机就是通过调整参数θ={W,a,b}来表征给定的训练样本,使得在该参数下由相应受限玻尔兹曼机表示的概率分布尽可能地与训练数据相符,其中W表示权重系数,a表示可视层的偏移量,b表示隐含层的偏移量;
训练受限玻尔兹曼机的目标就是最大化似然函数:
即:
其中p(d(t))为对样本d(t)的似然估计;
深度置信网的构造过程具体包括如下步骤:
S1.2.1、选取当前帧的前后5帧作为上下文信息,共计11*13=143维作为第一个受限玻尔兹曼机的可视层输入节点数,隐含层节点数取固定值1024,将输入特征的每一维进行倒谱均值方差归一化,采用对比散度算法训练一个高斯-伯努利受限玻尔兹曼机,具体过程如下:
S1.2.1.1、将连接权重初始化,值为10-3,偏移量、似然函数对权重的偏导数、似然函数对可视层以及隐含层偏移量的偏导数均初始化为0,迭代次数设置为30;
S1.2.1.2、对每一次迭代,取初始值d(0),d(0)={di(0)},i∈vis,为训练样本集合D中的任意一个样本d,执行k步Gibbs采样得到d(k),其中在第s步(s=0,2...,k-1)过程如下:
S1.2.1.2.1、隐含层中的每一个节点的激活概率可以表示为:
S1.2.1.2.2、产生[0,1]区间的随机数rj,得到隐含层状态h(s):
S1.2.1.2.3、根据隐含层状态h(s),得到可视层每一个节点的激活概率为:
S1.2.1.2.4、产生[0,1]上的随机数ri,重构可视层输入d(s+1):
S1.2.1.3、经过k步Gibbs采样后得到的d(k)近似估计受限玻尔兹曼机参数的梯度:
其中p(hi=1|d(k))表示在可视层限定为已知的训练样本d(k)时隐含层的激活概率,由于该RBM为高斯-伯努利RBM,则
S1.2.1.4、得到似然函数对权重的偏导数、似然函数对可视层以及隐含层偏移量的偏导数ΔW,Δa和Δb,其中
S1.2.1.5、更新参数:
式中η为权重学习率,设置为0.01;
S1.2.2、保持上一个受限玻尔兹曼机的权重和偏移量不变,将上一个受限玻尔兹曼机的隐含层作为下一个受限玻尔兹曼机的可视层,并保持隐含层节点数与可视层节点数相同,迭代训练一个伯努利-伯努利受限玻尔兹曼机,其步骤与S1.2.1类似,只是在执行k步Gibbs采样得到d(k)时,其可视层每一个节点的激活概率公式变为:
此过程中,权重学习率变为0.04,迭代次数降为15次;
S1.2.3、按照S1.2.2中的步骤,重复迭代训练伯努利-伯努利受限玻尔兹曼机,直到瓶颈层的前一个隐含层;
S1.2.4、将受限玻尔兹曼机的隐含层节点数设置为梅尔频率倒谱系数特征维数的2倍,按照S1.2.2中的步骤,迭代训练伯努利-伯努利受限玻尔兹曼机;
S1.2.5、恢复隐含层节点数为1024,按照S1.2.2中的步骤,重复迭代训练伯努利-伯努利受限玻尔兹曼机,直到最后一个隐含层;
S1.2.6、将所有的受限玻尔兹曼机按照构造时的顺序依次堆叠起来,就构成一个带瓶颈层的深度置信网;
S1.3、精确调整:采用有监督训练方法对预训练后的深度置信网络参数进行精确调整,具体包括如下步骤:
S1.3.1、在深度置信网的基础上再增加一个输出层,并随机初始化深度置信网最后一层与该增加的输出层之间的网络参数,从而构成一个完整的深度神经网络;
S1.3.2、利用反向传播算法有监督地调整深度神经网络参数,最大迭代次数设为100,并且当相邻两次迭代的损失变化率小于0.01时终止训练,对于每一次迭代,具体步骤如下:
S1.3.2.1、计算样本损失函数:
对于单个有标签的训练样本(x,t),其中x为声学特征,t为样本标签,其维度与输出节点数相同,即训练的音频类别数,对于音频类型集合Y={y1,y2,..,yk,..,yK},t={t1,t2,…ti,…,tK},其中ti:
单个样本损失函数记为:
其中hW,b(x)为网络输出层的激活函数的输出值,
给定一个含有n个训练样本集{(x(1),t(1)),(x(2),t(2)),...,(x(n),t(n))},则整体损失函数为:
其中ml为网络总层数,sl为第l层上的节点总数,为第l层的节点i与第l+1层的节点j之间的连接权重,λ为平衡因子;
S1.3.2.2、根据S1.3.2.1中的整体样本损失函数,分别对网络连接权重和偏移量求导,利用反向传播算法得到偏导数值,具体过程如下:
S1.3.2.2.1、首先利用前向传播算法,分别计算隐含层以及输出层中所有节点的激活值
其中σ(·)为选取的Sigmoid激活函数,表示第l层第i个单元的加权和,即:
S1.3.2.2.2、对于输出层的每个输出单元i,其残差为:
其中ti表示输出层第i个节点的标签,为输出层第i个节点的激活值,表示输出层第i个单元的加权和;
根据反向传播算法,对于输出层前的各个隐含层(l=2,3,…,ml-2,ml-1),依次计算其残差为:
其中表示第l个隐含层的第i个节点与第l+1个隐含层中第j个节点的连接权重,为第l+1层的残差,表示第l层第i个单元的加权和,表达式为:
S1.3.2.2.3、单个样本最终的偏导数值为:
其中,δ(l+1)={δi(l+1)},i=1,2,...,sl为第l+1层的残差向量,a(l)={ai(l)},i=1,2,...,sl为第l层的激活值,T为转置符号,
对于i=1:n的所有训练样本{(x(1),t(1)),(x(2),t(2)),...,(x(n),t(n))},迭代有:
其中ΔW(l)是一个与矩阵W(l)={Wij(l)}维度相同的矩阵,初始化为0,Δb(l)是一个与矩阵b(l)={bi(l)}维度相同的向量,初始值也为0,ΔW(l,i)和Δb(l,i)分别表示对第i个训练样本计算出的ΔW(l)和b(l),
S1.3.2.3、更新网络的连接权重W(l)和偏移量b(l):
其中α为学习速率,设置为0.01,λ为平衡因子,设为0.08。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710101550.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:木塑装潢板预切割装置
- 下一篇:可用于异形石材加工的桥式切石机