首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]一种联合优化深层变换特征与聚类过程的声场景聚类方法有效

申请号：	201910033838.3	申请日：	2019-01-15
公开（公告）号：	CN109859771B	公开（公告）日：	2021-03-30
发明（设计）人：	李艳雄;刘名乐;王武城;张聿晗	申请（专利权）人：	华南理工大学
主分类号：	G10L25/24	分类号：	G10L25/24;G10L25/30;G10L25/45;G10L25/51
代理公司：	广州市华学知识产权代理有限公司 44245	代理人：	李斌
地址：	510640 广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种联合优化深层变换特征过程声场景聚类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种联合优化深层变换特征与聚类过程的声场景聚类方法，其特征在于，所述的声场景聚类方法包括如下步骤：

S1、提取对数梅尔谱特征：对各类声场景的样本进行预加重、分帧、加窗，然后分别提取每一音频帧的对数梅尔谱特征；

S2、初始化各类及卷积神经网络：将每个样本作为一个初始类，初始化生成一个卷积神经网络用于提取深层变换特征；

S3、更新卷积神经网络，提取新的深层变换特征：根据类标签及各类样本更新卷积神经网络参数，并用更新后的卷积神经网络提取各类样本的深层变换特征；

其中，所述的步骤S3中更新卷积神经网络，提取新的深层变换特征的过程如下：

将提取的声学特征输入该网络，得到新的深层变换特征；经过一定次数的聚类更新类标签之后，根据损失函数与更新的类标签，采用反向传播算法更新网络参数，使网络所提取的深层变换特征更具区分性，从而得到更优的聚类结果；所述的损失函数公式如下：

表示当前第t类，表示与距离最近的类，K_c是一个表示类别数的常数，表示除外的其他相邻类，A(·)是一个计算类间相似度的函数，表示第p阶段的迭代次数；

S4、合并最相似的两个类：采用凝聚分层聚类算法将相似度最大的两个类合并在一起，得到新的类标签和各类样本，类数减一；

S5、聚类收敛判决：如果当前类数等于真实类数，则停止聚类，得到联合优化的声场景聚类结果和卷积神经网络，否则跳到步骤S3。

2.根据权利要求1所述的一种联合优化深层变换特征与聚类过程的声场景聚类方法，其特征在于，所述的步骤S1中提取对数梅尔谱特征包括以下步骤：

S1.1、音频数据采集与标注：在不同的场景采集音频数据流，然后将每一个音频数据流分割成一定长度的音频段，三人或三人以上对音频段进行人工标注，对于存在异议的音频段标注，按照少数服从多数的原则确定最终的标签；

S1.2、预加重：设置数字滤波器的传递函数为H(z)＝1-αz^-1，其中α为一个系数且取值为：0.9≤α≤1，读入的音频段通过该数字滤波器后实现预加重；

S1.3、分帧、加窗：

S1.3.1、对音频段进行分帧与加窗，帧长和帧移所对应的采样点个数分别为N＝0.025×f_s和S＝0.01×f_s，其中f_s为采样频率，将读入的音频段切分成音频帧s′_t(n)，1≤t≤T，1≤n≤N，其中T和N分别表示帧数和每帧的采样点数；

S1.3.2、采用汉明窗作为窗函数ω(n)：

S1.3.3、将每帧音频信号s′_t(n)与汉明窗ω(n)相乘得到加窗后的音频信号s_t(n)：

s_t(n)＝ω(n)×s′_t(n)n＝0,1,...,N-1,t＝1,2,...,T；

S1.4、提取对数频谱特征：

S1.4.1、对第t帧音频信号s_t(n)做离散傅立叶变换得到线性频谱X_t(k)：

S1.4.2、将上述线性频谱X_t(k)通过梅尔频率滤波器组得到梅尔频谱，再进行对数运算得到对数频谱S_t(m)，其中梅尔频率滤波器组为若干个带通滤波器H_m(k)，0≤m＜M，M为滤波器的个数，每个滤波器具有三角形滤波特性，其中心频率为f(m)，每个带通滤波器的传递函数为：

其中，0≤m＜M，f(m)定义如下：

其中，f_l、f_h为滤波器的最低频率和最高频率，B^-1为B的逆函数：

B^-1(b)＝700(e^b/1125-1)，

因此由线性频谱X_t(k)到对数频谱S_t(m)的变换为：

S1.4.3、对每帧音频信号重复步骤S1.3.1)～S1.4.2)，得到所有音频帧的上述对数频谱S_t(m)特征，将它们按帧的顺序组合成一个特征矩阵。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华南理工大学，未经华南理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910033838.3/1.html，转载请声明来源钻瓜专利网。

上一篇：音乐分离方法、装置及计算机可读存储介质
下一篇：情绪识别方法、装置及计算机可读存储介质

同类专利

专利分类

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top