[发明专利]一种基于跨域迁移学习的小样本声音识别方法及系统在审
申请号: | 202111632403.4 | 申请日: | 2021-12-28 |
公开(公告)号: | CN114299986A | 公开(公告)日: | 2022-04-08 |
发明(设计)人: | 孙剑;赵泽辰 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G10L25/03 | 分类号: | G10L25/03;G10L25/24;G10L25/30;G10L25/51;G06N3/04;G06N3/08 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 李鹏威 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 迁移 学习 样本 声音 识别 方法 系统 | ||
1.一种基于跨域迁移学习的小样本声音识别方法,其特征在于,包括以下步骤:
对采集的原始声音信号进行梅尔时频变换得到声音信号的梅尔语谱图,将所述梅尔语谱图输入所建立的声音识别模型,基于声音识别模型提取出梅尔语谱图的时频域、时域和频域的特征,对所述语谱图时频域、时域和频域的特征进行拼接送入一个全连接层得到最后的声音信号识别结果;
所述声音识别模型训练包括以下步骤:
采集原始的声音信号,并对其中一部分数据进行标注;对采集的原始声音信号进行梅尔时频变换得到声音信号的梅尔语谱图,同时收集大量有标注的自然图像数据;
利用所采集没有标注的梅尔语谱图和有标注的自然图像预训练深度神经网络,基于迁移学习和对比学习算法实现跨域地将模型针对自然图像的特征提取能力迁移到梅尔语谱图上,得到预训练后的深度神经网络;
基于时频多空间特征提取的声音识别模型提取出有标注的梅尔语谱图的时频多空间特征来进一步地训练预训练得到的深度神经网络,得到最终的声音识别模型;所述声音识别模型包括深度卷积网络和循环神经网络。
2.根据权利要求1所述的基于跨域迁移学习的小样本声音识别方法,其特征在于,所述梅尔语谱图的提取包括以下步骤:
对原始声音信号进行分帧、加窗,并对每个窗口做傅里叶变换,得到每个窗口的频率域特征,把频率域特征按照窗口的时间顺序进行堆叠得到一个二维时频信号;
利用梅尔滤波器组对所述二维时频信号进行滤波,得到梅尔语谱图。
3.根据权利要求1所述的基于跨域迁移学习的小样本声音识别方法,其特征在于,所述自然图像数据选用公开的自然图像数据库。
4.根据权利要求1所述的基于跨域迁移学习的小样本声音识别方法,其特征在于,基于双阶段预训练方法实现模型的跨域适应,双阶段预训练包括以下步骤:
利用有标注自然图像数据集有监督地预训练深度神经网络;
利用无标注声音信号的语谱图使用自监督的对比学习算法进一步预训练深度神经网络。
5.根据权利要求4所述的基于跨域迁移学习的小样本声音识别方法,其特征在于,利用无标注声音信号的语谱图使用自监督的对比学习算法进一步预训练深度神经网络时,将对比学习算法与声音信号进行结合,对每一个输入数据进行两次随机扰动,得到两个随机扰动数据,然后经过深度卷积神经网络分别提取两个数随机扰动据的特征进行对比学习的训练。
6.根据权利要求5所述的基于跨域迁移学习的小样本声音识别方法,其特征在于,数据增强具体为:对所述输入数据依次进行增加噪音、改变音调、时间拉伸和时移。
7.根据权利要求1所述的基于跨域迁移学习的小样本声音识别方法,其特征在于,对于双阶段预训练得到的深度神经网络,使用基于时频多空间特征提取进一步训练深度神经网络得到声音识别模型,其数学表达如下:
其中I为有标注声音信号的梅尔语谱图,f1(θ)为深度卷积网络,用于提取声音语谱图的时频空间特征z1,f2(θ)和f3(θ)为循环神经网络,分别用于提取语谱图的时间空间特征z2和频率空间特征z3,为向量的拼接操作,f4(θ)为全连接网络,用于生成最后的分类结果P,I为声音信号的语谱图,P={p1,p2,…,pn}为一维向量,其中pi为该音频属于第i类的概率值;f1(θ)采用用于图像特征提取的ResNet或DenseNet,f2(θ)和f3(θ)采用循环神经网络结构,LSTM或GRU,θ为深度网络的参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111632403.4/1.html,转载请声明来源钻瓜专利网。