[发明专利]一种基于残差网络的3DACRNN语音情感识别方法及存储介质有效
申请号: | 202010597012.2 | 申请日: | 2020-06-28 |
公开(公告)号: | CN111785301B | 公开(公告)日: | 2022-08-23 |
发明(设计)人: | 胡章芳;唐珊珊;罗元;张昊;诸海渝 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L25/45;G10L25/30 |
代理公司: | 重庆市恒信知识产权代理有限公司 50102 | 代理人: | 陈栋梁 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 网络 dacrnn 语音 情感 识别 方法 存储 介质 | ||
1.一种基于残差网络的3DACRNN语音情感识别方法,其特征在于,包括以下步骤:
S1、对语音信号进行包括预加重、加窗分帧在内的预处理;
S2、将经过步骤S1处理后的语音信号转换为二维语谱图,通过堆叠多个连续帧的语谱图的方法将二维语谱图处理成三维语谱图数据;
S3、基于残差网络的三维卷积神经网络Res3DCNN从三维语谱图中提取情感语音的短期时空特征,利用残差网络补偿传统卷积神经网络CNN在卷积过程中缺失的特征;
S4、将Res3DCNN的输出作为基于注意力机制的递归神经网络ARNN模型的输入,其中递归神经网络RNN为LSTM;LSTM的遗忘门采用后遗忘门,其中后遗忘门算法如下:
ft=σ(Wf×Ct-1+bf),
单元状态更新算法:it=σ(Wi×[ht-1,xt]+bi)
其中Ct-1和ht-1分别是前一时刻的单元状态和隐藏层输出,ft表示遗忘门输出结果,it表示输入门的输入数据,xt是当前时刻的输入,是要被添加到记忆单元的候选值,Wf、Wi和WC是分别是由训练得到的遗忘门、输入门和候选单元的权重,bf、bi和bC是它们的偏差,it是的权重系数,σ表示的是逻辑sigmoid函数:
S5、使用验证集对训练后的模型进行10倍交叉验证,交叉熵作为损失函数,用RMSProp算法对模型参数进行优化;
S6、使用验证集对训练后的模型验证,调整模型中RMSProp算法的超参数,得到最终网络模型,最后利用Softmax层进行语音情感分类。
2.根据权利要求1所述的一种基于残差网络的3DACRNN语音情感识别方法,其特征在于,所述步骤S1根据语音信号的短时平稳性,对其进行包括预加重、加窗分帧在内的预处理,具体步骤如下:
步骤A1:采用一阶高通滤波器即预加重滤波器,其Z域中的传递函数为H(z)=1-az-1,a表示预加重系数,取值0.95,z表示Z域的坐标值,H(z)是传递函数,预加重处理后的信号为x(t);
步骤A2:对预加重后的信号进行分帧,变为x(m,n),n为帧长,m为帧的个数,采用汉明窗进行加窗:
x(m,n)表示分帧后的语音信号,w(n)表示汉明窗的窗函数,加窗分帧后语音信号为:sw(m,n)=x(m,n)*w(n),sw(m,n)表示加窗分帧后的语音信号,其中每一帧含有N个采样点。
3.根据权利要求2所述的一种基于残差网络的3DACRNN语音情感识别方法,其特征在于,所述步骤S2将处理后语音信号转换为二维语谱图,通过堆叠多张连续帧的语谱图的方法将二维语谱图处理成三维数据,其处理步骤如下:
步骤B1:通过快速傅里叶变换FFT将步骤A2处理后的信号从时域数据变换到频域,得到X(m,n);
步骤B2:做周期图Y(m,n),公式为Y(m,n)=X(m,n)*X(m,n)',X(m,n)'表示X(m,n)的导数,然后取10log10Y(m,n),把m根据时间变换一下刻度M,n根据频率变化一下刻度N,利用(M,N,10log10Y(m,n))画出二维语谱图;
步骤B3:通过堆叠多个连续帧的语谱图组成一个立方体,然后在立方体中与3D卷积核进行卷积操作,这里的输入数据设置为Time×Frequency×C,Time、Frequency分别表示语谱图的横轴时间和纵轴频率,C表示语谱图的张数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010597012.2/1.html,转载请声明来源钻瓜专利网。