[发明专利]一种听觉前端与基于注意力的3DCRNN结合的语音情感识别方法在审
申请号: | 202110629472.3 | 申请日: | 2021-06-04 |
公开(公告)号: | CN113327588A | 公开(公告)日: | 2021-08-31 |
发明(设计)人: | 黄超;张毅;郑凯 | 申请(专利权)人: | 重庆邮智机器人研究院有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/08;G10L15/16;G10L25/63 |
代理公司: | 北京同恒源知识产权代理有限公司 11275 | 代理人: | 杨柳岸 |
地址: | 401220 重庆*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 听觉 前端 基于 注意力 dcrnn 结合 语音 情感 识别 方法 | ||
1.一种听觉前端与基于注意力的3DCRNN结合的语音情感识别方法,其特征在于:包括以下步骤:
S1:利用听觉系统对语音信号进行处理,提取出表征语音情感信息的基于时间调制信号的语谱图;
S2:利用3DCNN模型从语谱图中提取情感语音的光谱-时间特征;
S3:将3DCNN的输出作为ARNN模型的输入,通过ARNN提取光谱-时间特征的长期依赖关系,利用时间注意模型来捕捉每个话语中与情感相关的重要信息;
S4:在模型训练过程中各自更新自身的参数使得损失最小,不断迭代优化,使模型达到最优,使用验证集对训练后的模型进行10倍交叉验证,交叉熵作为损失函数,用RMSProp算法对模型参数进行优化;
S5:使用验证集对训练后的模型验证,调整模型的超参数,得到最终网络模型,最后利用Softmax层进行语音情感分类。
2.根据权利要求1所述的听觉前端与基于注意力的3DCRNN结合的语音情感识别方法,其特征在于:所述步骤S1具体步骤如下:
S11:采用听觉滤波器组将语音信号y(t)分解为声音频率分量,作为耳蜗声音频率分析仪对语音信号进行处理,其中第n个声音频率通道的输出为:
sg(n,t)=gc(n,t)*y(t),1≤n≤N
其中,gc(n,t)是第n个信道的脉冲响应,t是时域中的样本数,N是听觉滤波器组中的通道数,*表示卷积操作;所述听觉滤波器的中心频率与其带宽成正比,其特点为等效矩形带宽(ERBN),公式如下:
其中,fn是第n个滤波器的中心频率,Qear是大频率下的渐近滤波器质量,Bmin是低频率下的最小带宽;所述听觉滤波器的脉冲响应是伽玛分布和正弦函数的乘积,公式如下:
其中,Ata1-1exp(-2πwfERBN(fn)t)是由伽玛分布表示的振幅项,A、a1和wf分别是滤波器的振幅、滤波器顺序和带宽,c1ln(t)项是单调调频项,是原始相位,ERBN(fn)是在中心频率为fn时听觉滤波器的带宽;
S12:利用希尔伯特变换提取语音信号的时间包络线,计算第n个通道信号的瞬时振幅se(n,t),se(n,t)是从sg(n,t)计算得出,公式如下:
式中,是一个复杂分析信号。
S13:利用调制滤波器组获得频谱-时间调制信号,使用第n个通道中的第m个调制滤波器获得的频谱-时间调制信号sm(n,m,t),其计算公式如下:
sm(n,m,t)=mf(m,t)*se(n,t),1≤n≤M
其中,mf(m,t)是调制滤波器组的脉冲响应,M是调制滤波器组中的通道数。
3.根据权利要求1所述的听觉前端与基于注意力的3DCRNN结合的语音情感识别方法,其特征在于:步骤S2中所述3DCNN模型包括三个卷积层、三个池化层及一个Reshape层,每个卷积层后加入批规范(Batch Normalization,BN)层和ReLU激活函数层;
所述BN层对深度神经网络中间层激活进行归一化,引入两个可学习参数γ和β:
一个批次中,BN是对每个特征而言的,有m个训练样本,j个维度,即j个神经元节点,对第j维进行规范化:
其中,是第i层第j维的线性计算结果,ε是为了防止方差为0的常数;
ReLU的计算公式如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮智机器人研究院有限公司,未经重庆邮智机器人研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110629472.3/1.html,转载请声明来源钻瓜专利网。