[发明专利]一种联合优化深层变换特征与聚类过程的声场景聚类方法有效
申请号: | 201910033838.3 | 申请日: | 2019-01-15 |
公开(公告)号: | CN109859771B | 公开(公告)日: | 2021-03-30 |
发明(设计)人: | 李艳雄;刘名乐;王武城;张聿晗 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G10L25/24 | 分类号: | G10L25/24;G10L25/30;G10L25/45;G10L25/51 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 李斌 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 联合 优化 深层 变换 特征 过程 声场 景聚类 方法 | ||
1.一种联合优化深层变换特征与聚类过程的声场景聚类方法,其特征在于,所述的声场景聚类方法包括如下步骤:
S1、提取对数梅尔谱特征:对各类声场景的样本进行预加重、分帧、加窗,然后分别提取每一音频帧的对数梅尔谱特征;
S2、初始化各类及卷积神经网络:将每个样本作为一个初始类,初始化生成一个卷积神经网络用于提取深层变换特征;
S3、更新卷积神经网络,提取新的深层变换特征:根据类标签及各类样本更新卷积神经网络参数,并用更新后的卷积神经网络提取各类样本的深层变换特征;
其中,所述的步骤S3中更新卷积神经网络,提取新的深层变换特征的过程如下:
将提取的声学特征输入该网络,得到新的深层变换特征;经过一定次数的聚类更新类标签之后,根据损失函数与更新的类标签,采用反向传播算法更新网络参数,使网络所提取的深层变换特征更具区分性,从而得到更优的聚类结果;所述的损失函数公式如下:
表示当前第t类,表示与距离最近的类,Kc是一个表示类别数的常数,表示除外的其他相邻类,A(·)是一个计算类间相似度的函数,表示第p阶段的迭代次数;
S4、合并最相似的两个类:采用凝聚分层聚类算法将相似度最大的两个类合并在一起,得到新的类标签和各类样本,类数减一;
S5、聚类收敛判决:如果当前类数等于真实类数,则停止聚类,得到联合优化的声场景聚类结果和卷积神经网络,否则跳到步骤S3。
2.根据权利要求1所述的一种联合优化深层变换特征与聚类过程的声场景聚类方法,其特征在于,所述的步骤S1中提取对数梅尔谱特征包括以下步骤:
S1.1、音频数据采集与标注:在不同的场景采集音频数据流,然后将每一个音频数据流分割成一定长度的音频段,三人或三人以上对音频段进行人工标注,对于存在异议的音频段标注,按照少数服从多数的原则确定最终的标签;
S1.2、预加重:设置数字滤波器的传递函数为H(z)=1-αz-1,其中α为一个系数且取值为:0.9≤α≤1,读入的音频段通过该数字滤波器后实现预加重;
S1.3、分帧、加窗:
S1.3.1、对音频段进行分帧与加窗,帧长和帧移所对应的采样点个数分别为N=0.025×fs和S=0.01×fs,其中fs为采样频率,将读入的音频段切分成音频帧s′t(n),1≤t≤T,1≤n≤N,其中T和N分别表示帧数和每帧的采样点数;
S1.3.2、采用汉明窗作为窗函数ω(n):
S1.3.3、将每帧音频信号s′t(n)与汉明窗ω(n)相乘得到加窗后的音频信号st(n):
st(n)=ω(n)×s′t(n)n=0,1,...,N-1,t=1,2,...,T;
S1.4、提取对数频谱特征:
S1.4.1、对第t帧音频信号st(n)做离散傅立叶变换得到线性频谱Xt(k):
S1.4.2、将上述线性频谱Xt(k)通过梅尔频率滤波器组得到梅尔频谱,再进行对数运算得到对数频谱St(m),其中梅尔频率滤波器组为若干个带通滤波器Hm(k),0≤m<M,M为滤波器的个数,每个滤波器具有三角形滤波特性,其中心频率为f(m),每个带通滤波器的传递函数为:
其中,0≤m<M,f(m)定义如下:
其中,fl、fh为滤波器的最低频率和最高频率,B-1为B的逆函数:
B-1(b)=700(eb/1125-1),
因此由线性频谱Xt(k)到对数频谱St(m)的变换为:
S1.4.3、对每帧音频信号重复步骤S1.3.1)~S1.4.2),得到所有音频帧的上述对数频谱St(m)特征,将它们按帧的顺序组合成一个特征矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910033838.3/1.html,转载请声明来源钻瓜专利网。