[发明专利]一种发声方式判别方法及系统有效
申请号: | 202011044151.9 | 申请日: | 2020-09-28 |
公开(公告)号: | CN112201226B | 公开(公告)日: | 2022-09-16 |
发明(设计)人: | 李伟;江益靓;孙校珩;钱家乐 | 申请(专利权)人: | 复旦大学 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/08;G10L15/16;G10L25/24;G10L25/51;G06N3/04;G06N3/08 |
代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 陆飞;陆尤 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 发声 方式 判别 方法 系统 | ||
1.一种发声方式判别方法,其特征在于,具体步骤为:
(1)获取各发声方式对应的音频数据,所述发声方式包括呼气式发声、自然式发声、抖动式发声以及挤压式发声;
(2)采用滑窗方式在各所述音频数据上连续截取设定长度的音频作为样本数据,相邻所述样本数据有设定量的重叠;
(3)对各所述样本数据进行降采样、分帧加窗、傅立叶变换,通过梅尔滤波器组,得到各样本数据的梅尔谱;
(4)基于训练集的梅尔谱均值与方差,对各样本数据的梅尔谱进行标准化;其中,所述训练集由各样本数据的梅尔谱组成;
(5)以标准化后的各样本数据的梅尔谱作为输入,以Adam为优化函数,以交叉熵为损失函数训练一个卷积神经网络,得到训练好的神经网络模型;
(6)采用训练好的神经网络模型对待识别音频数据进行发声方式的判别;
步骤(5)中所述神经网络模型包括卷积模块和分类模块;其中,所述卷积模块包括四个卷积层、最大池化层和丢弃层,所述分类模块包括三个全连接层;
所述神经网络模型的结构设计如下:对于4个卷积层,每个卷积层都进行补0操作,使得输入特征图与输出特征图大小一致;其中,第一个卷积层的滤波器的形状为3*3*16,三个数字分别对应于频率、时间、信道;第二个卷积层的滤波器在频率、时间上的尺度不变,信道加深一倍,即32个信道;第三个卷积层的滤波器与第二个卷积层一致,第四个卷积层滤波器的个数增加一倍;每个卷积操作后,都会进行批标准化操作,再通过修正线性单元,之后再经过最大池化与丢弃层,其目的是进行下采样,去除冗余信息,增加网络的泛化性;以上卷积层模块从输入梅尔谱中提取出发声方式的高层特征,再经过三个全连接层进行分类,最后一层加上Softmax函数,最终的输出为四种发声方式的概率,其中概率最大的类别为最终的判断类别;
采用歌声技巧分类模型中前三个卷积层的权重参数对所述神经网络模型中的前三个卷积层的权重参数进行初始化,所述歌声技巧分类模型采用卷积神经网络的架构;
神经网络训练中的学习率为0.001-0.002;神经网络训练中丢弃层的随机丢弃概率为0.25-0.5。
2.根据权利要求1所述的发声方式判别方法,其特征在于,步骤(4)所述基于训练集的梅尔谱均值与方差,对各样本数据的梅尔谱进行标准化,具体包括:
根据,对各样本数据的梅尔谱进行标准化,其中,Sorigin为样本数据标准化前的梅尔谱,Sstandard为样本数据标准化后的梅尔谱,s为训练集中梅尔谱的方差,μ为训练集中梅尔谱的均值。
3.根据权利要求1所述的发声方式判别方法,其特征在于,神经网络训练中批处理的每批数据大小为64、72、80、88、96、104、112、120或128个样本。
4.根据权利要求1所述的发声方式判别方法,其特征在于,神经网络训练中的训练轮数为200-300。
5.一种相应于权利要求1-4之一所述方法的发声方式判别系统,其特征在于,包括:
音频数据获取模块,用于获取各发声方式对应的音频数据,所述发声方式包括呼气式发声、自然式发声、抖动式发声以及挤压式发声;
样本数据截取模块,用于采用滑窗方式在各所述音频数据上连续截取设定长度的音频作为样本数据,相邻所述样本数据有设定量的重叠;
梅尔谱计算模块,用于对各所述样本数据进行降采样、分帧加窗、傅立叶变换,通过梅尔滤波器组,得到各样本数据的梅尔谱;
标准化模块,用于基于训练集的梅尔谱均值与方差,对各样本数据的梅尔谱进行标准化,其中,所述训练集由各样本数据的梅尔谱组成;具体包括:标准化单元,用于根据对各样本数据的梅尔谱进行标准化,其中,Sorigin为样本数据标准化前的梅尔谱,Sstandard为样本数据标准化后的梅尔谱,s为训练集中梅尔谱的方差,μ为训练集中梅尔谱的均值;
神经网络训练模块,用于以标准化后的各样本数据的梅尔谱作为输入,以Adam为优化函数,以交叉熵为损失函数训练卷积神经网络,得到训练好的神经网络模型;
判别模块,用于采用训练好的神经网络模型对待识别音频数据进行发声方式的判别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011044151.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:桶装水的桶盖
- 下一篇:一种喷头补偿打印方法、装置、打印设备和储存介质