[发明专利]基于参数迁移和语谱图的语音情感识别方法有效
申请号: | 201810134149.7 | 申请日: | 2018-02-09 |
公开(公告)号: | CN108597539B | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 缪裕青;邹巍;刘同来;蔡国永;文益民;缪永进;汪俊宏 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L25/30;G10L25/45;G10L25/24;G10L25/15;G10L15/06;G06K9/62 |
代理公司: | 桂林市华杰专利商标事务所有限责任公司 45112 | 代理人: | 杨雪梅 |
地址: | 541004 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 参数 迁移 语谱图 语音 情感 识别 方法 | ||
1.基于参数迁移和语谱图的语音情感识别方法,其特征在于,包括如下步骤:
1):从中科院自动化所汉语情感数据库中采集语音情感数据并对语音情感数据进行预处理,其中语音情感数据包括6种情感:生气、害怕、高兴、中性、伤心、惊奇,
所述的预处理,包括如下步骤:
①:采集6种语音情感数据;
②:对每条语音情感数据进行预加重,将预加重后的语音情感数据进行分帧,再将分帧后的语音情感数据进行加窗处理;
③:将加窗处理后的语音情感数据进行傅里叶变换,最后将语音情感数据转换为RGB三通道语谱图;
2):构建基于预训练卷积循环神经网络的网络模型,包括如下步骤:
①:基于AlexNet网络模型构建卷积神经网络(Convolutional Neural Network,CNN)部分,去掉AlexNet网络模型第五个卷积层之后的全连接层,重新设置全连接层参数,形成新的全连接层,然后将步骤1)中的语谱图输出的特征进行维度转换,再连接循环神经网络部分,循环神经网络部分使用长短期记忆(Long-Short Term Memory,LSTM)神经网络,最后连接新的全连接层;
②:使用Relu函数作为卷积和池化层的激活函数,步骤1)中的语谱图经过每一个卷积层的卷积操作后提取的特征图在池化层进行降采样操作,去除冗余信息,缩小运算规模,构建基于预训练卷积循环神经网络的网络模型;
3):对步骤2)中的网络模型进行参数迁移并训练,所述参数迁移包括如下步骤:
①:对步骤1)中的每张语谱图进行数据增强操作来扩充语谱图的数据集;
②:迁移在ImageNet数据集上预训练的AlexNet网络的权重参数,设置预训练AlexNet网络的每个卷积层的权重参数为W(i),其中i=1,2,…,5,选取W(4)迁移到步骤2)中的网络模型,固定卷积神经网络部分的前四层权重参数,使卷积神经网络部分的前四层权重参数在训练时不更新,只调整前四层之后的权重参数;
③:对步骤2)中的卷积神经网络部分提取的语谱图特征组成的c张特征图进行维度转换,设置得到的c张特征图为M=(m1,m2,…,mc),每张特征图用(xt,yf)表示,其中t为时域维度,f为频域维度;所有的特征图组成c×t×f的三维向量,形成特征图集M(c,t,f);将t作为一个维度,c和f组成一个二维向量,即变成t×(c×f),对M集进行维度变换操作,转换其特征维度形成M′(t,c,f);当输入到LSTM神经网络后,将维度t作为训练的时间步长,c×f作为每个时间步的序列特征输入;
④:将LSTM神经网络输出的语谱图特征输入到新的全连接层,经Softmax激活函数映射到语音情感数据中的其中一种情感。
2.根据权利要求1所述的基于参数迁移和语谱图的语音情感识别方法,其特征在于,步骤3)中所述的训练包括如下步骤:
①:使用随机梯度下降算法计算损失函数,设置随机梯度下降算法的学习率为0.0001,动量为0.9;
②:梯度下降算法在执行过程中利用反向传播算法计算输出权值的偏导数;
③:经过迭代来缩小整体语谱图集的损失函数,当产生的训练误差变小时减小学习率直到误差稳定。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810134149.7/1.html,转载请声明来源钻瓜专利网。