[发明专利]一种基于瓶颈特征的复杂音频分割聚类方法在审
申请号: | 201710101550.6 | 申请日: | 2017-02-24 |
公开(公告)号: | CN106952644A | 公开(公告)日: | 2017-07-14 |
发明(设计)人: | 李艳雄;王琴;李先苦;张雪;张聿晗 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G10L15/04 | 分类号: | G10L15/04;G10L15/26;G10L25/24;G10L25/30;G10L25/51;G06F17/30 |
代理公司: | 广州市华学知识产权代理有限公司44245 | 代理人: | 李斌 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于瓶颈特征的复杂音频分割聚类方法,包括如下步骤,首先构造一个带瓶颈层的深度神经网络;接着读入复杂音频流,对复杂音频流进行端点检测,然后提取非静音段的音频特征并输入深度神经网络,从深度神经网络的瓶颈层提取瓶颈特征;以瓶颈特征作为输入,采用基于贝叶斯信息准则的音频分割方法,使得每个音频段只包含一种音频类型且相邻音频段的音频类型不同;最后,采用谱聚类算法对分割后的音频段进行聚类,得到复杂音频的音频类型个数,并将相同音频类型的音频段合并在一起。本发明采用的瓶颈特征是一种深层变换特征,比传统音频特征能更有效刻画复杂音频类型的特性差异,在复杂音频分割聚类中获得更加优异的效果。 | ||
搜索关键词: | 一种 基于 瓶颈 特征 复杂 音频 分割 方法 | ||
【主权项】:
一种基于瓶颈特征的复杂音频分割聚类方法,其特征在于,包括如下步骤:S1、带瓶颈层的深度神经网络构造:读入训练数据并提取梅尔频率倒谱系数特征,再通过无监督预训练和有监督精确调整两个步骤构造一个带瓶颈层的深度神经网络特征提取器;S2、端点检测:读入复杂音频流,通过基于门限判决的静音检测方法找出音频流中所有的静音段和非静音信号段,并将各个非静音信号段拼接成一个长信号段;S3、瓶颈特征提取:提取S1步骤中的梅尔频率倒谱系数特征并输入深度神经网络特征提取器,从深度神经网络特征提取器的瓶颈层提取瓶颈特征;S4、音频分割:采用基于贝叶斯信息准则的方法检测长信号段中的音频类型改变点,根据这些改变点把长信号段分割成若干个音频段,使得每个音频段只包含一种音频类型且相邻音频段的音频类型不同;S5、音频聚类:采用谱聚类算法对各音频段进行聚类,得到音频类型个数,并将相同音频类型的音频段合并在一起。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710101550.6/,转载请声明来源钻瓜专利网。
- 上一篇:木塑装潢板预切割装置
- 下一篇:可用于异形石材加工的桥式切石机